OpenAI lança GPT | Shanghai pré-preenchido Vape Pod Co., Ltd

A OpenAI lançou um novo e poderoso modelo de IA para compreensão de imagens e textos, GPT-4, que a empresa chama de “o mais recente marco em seu esforço para ampliar o aprendizado profundo”.

O GPT-4 está disponível hoje para usuários pagantes da OpenAI via ChatGPT Plus (com limite de uso), e os desenvolvedores podem se inscrever em uma lista de espera para acessar a API.

O preço é de US$ 0,03 por 1.000 tokens de “prompt” (cerca de 750 palavras) e US$ 0,06 por 1.000 tokens de “conclusão” (novamente, cerca de 750 palavras). Os tokens representam texto bruto; por exemplo, a palavra “fantástico” seria dividida nos tokens “fan”, “tas” e “tic”. Os tokens de prompt são as partes das palavras inseridas no GPT-4, enquanto os tokens de conclusão são o conteúdo gerado pelo GPT-4.

Acontece que o GPT-4 está escondido à vista de todos. A Microsoft confirmou hoje que o Bing Chat, sua tecnologia chatbot desenvolvida em conjunto com a OpenAI, está rodando em GPT-4.

Outros primeiros a adotar incluem Stripe, que usa GPT-4 para verificar sites de negócios e fornecer um resumo à equipe de suporte ao cliente. Duolingo transformou o GPT-4 em um novo nível de assinatura de aprendizado de idiomas. O Morgan Stanley está criando um sistema baseado em GPT-4 que recuperará informações de documentos da empresa e as fornecerá aos analistas financeiros. E a Khan Academy está aproveitando o GPT-4 para construir algum tipo de tutor automatizado.

Os novos recursos do GPT-4 capacitam um ‘voluntário virtual’ para deficientes visuais

O GPT-4 pode gerar texto e aceitar entradas de imagem e texto – uma melhoria em relação ao GPT-3.5, seu antecessor, que aceitava apenas texto – e funciona em “nível humano” em vários benchmarks profissionais e acadêmicos. Por exemplo, o GPT-4 passa em um exame simulado da ordem com uma pontuação em torno dos 10% melhores participantes do teste; em contraste, a pontuação do GPT-3.5 ficou em torno dos 10% inferiores.

A OpenAI passou seis meses “alinhando iterativamente” o GPT-4 usando lições de um programa interno de testes adversários, bem como do ChatGPT, resultando nos “melhores resultados de todos os tempos” em factualidade, dirigibilidade e recusa em sair dos limites, de acordo com a empresa. Como os modelos GPT anteriores, o GPT-4 foi treinado usando dados disponíveis publicamente, inclusive de páginas da web públicas, bem como dados licenciados pela OpenAI.

A OpenAI trabalhou com a Microsoft para desenvolver um “supercomputador” desde o início na nuvem Azure, que foi usado para treinar o GPT-4.

“Em uma conversa casual, a distinção entre GPT-3.5 e GPT-4 pode ser sutil”, escreveu OpenAI em uma postagem de blog anunciando o GPT-4. “A diferença surge quando a complexidade da tarefa atinge um limite suficiente – o GPT-4 é mais confiável, criativo e capaz de lidar com instruções muito mais sutis do que o GPT-3.5.”

Sem dúvida, um dos aspectos mais interessantes do GPT-4 é a sua capacidade de compreender imagens e também texto. O GPT-4 pode legendar – e até interpretar – imagens relativamente complexas, por exemplo, identificando um adaptador de cabo Lightning a partir de uma imagem de um iPhone conectado.

O recurso de compreensão de imagem ainda não está disponível para todos os clientes da OpenAI – a OpenAI está testando-o com um único parceiro, Be My Eyes, para começar. Desenvolvido por GPT-4, o novo recurso Virtual Volunteer do Be My Eyes pode responder perguntas sobre imagens enviadas a ele. A empresa explica como funciona em uma postagem no blog:

“Por exemplo, se um usuário enviar uma foto do interior de sua geladeira, o Voluntário Virtual poderá não apenas identificar corretamente o que há dentro dela, mas também extrapolar e analisar o que pode ser preparado com aqueles ingredientes. A ferramenta também pode oferecer uma série de receitas para esses ingredientes e enviar um guia passo a passo sobre como prepará-los.”

Uma melhoria mais significativa no GPT-4, potencialmente, são as ferramentas de dirigibilidade mencionadas acima. Com o GPT-4, a OpenAI está introduzindo um novo recurso de API, mensagens de “sistema”, que permitem aos desenvolvedores prescrever estilo e tarefas descrevendo instruções específicas. As mensagens do sistema, que também chegarão ao ChatGPT no futuro, são essencialmente instruções que definem o tom – e estabelecem limites – para as próximas interações da IA.

Por exemplo, uma mensagem do sistema pode ser: “Você é um tutor que sempre responde no estilo socrático. Você nunca dá a resposta ao aluno, mas sempre tenta fazer a pergunta certa para ajudá-lo a aprender a pensar por si mesmo. Você deve sempre adequar sua pergunta ao interesse e conhecimento do aluno, dividindo o problema em partes mais simples até que esteja no nível certo para ele.”