O novo GPT-4o da OpenAI permite que as pessoas interajam usando voz ou vídeo no mesmo modelo

Publicado originalmente por MIT Technology Review

A OpenAI acaba de lançar o GPT-4o, um novo tipo de modelo de IA com o qual você pode se comunicar em tempo real por meio de conversas de voz ao vivo, transmissões de vídeo do seu telefone e texto. O modelo será lançado nas próximas semanas e será gratuito para todos os usuários por meio do aplicativo GPT e da interface web, segundo a empresa. Os usuários que assinam os níveis pagos do OpenAI, que começam em US$ 20 por mês, poderão fazer mais solicitações.

Mira Murati, CTO da OpenAI, liderou a demonstração ao vivo do novo lançamento um dia antes do Google revelar seus próprios avanços de IA em sua principal conferência I/O na terça-feira, 14 de maio.

O GPT-4 ofereceu recursos semelhantes, oferecendo aos usuários diversas maneiras de interagir com as ofertas de IA da OpenAI. Mas isolou-os em modelos separados, levando a tempos de resposta mais longos e custos de computação presumivelmente mais elevados. O GPT-4o agora fundiu essas capacidades em um único modelo, que Murati chamou de “omnimodelo”. Isso significa respostas mais rápidas e transições mais suaves entre tarefas, disse ela.

O resultado, sugere a demonstração da empresa, é um assistente de conversação muito parecido com Siri ou Alexa, mas capaz de responder a solicitações muito mais complexas.

“Estamos olhando para o futuro da interação entre nós e as máquinas”, disse Murati sobre a demonstração. “Acreditamos que o GPT-4o está realmente mudando esse paradigma para o futuro da colaboração, onde esta interação se torna muito mais natural.”

Barret Zoph e Mark Chen, ambos pesquisadores da OpenAI, analisaram uma série de aplicações para o novo modelo. O mais impressionante foi a facilidade com conversas ao vivo. Você poderia interromper o modelo durante suas respostas e ele pararia, ouviria e ajustaria o curso.

OpenAI também mostrou a capacidade de alterar o tom do modelo. Chen pediu à modelo que lesse uma história para dormir “sobre robôs e amor”, rapidamente exigindo uma voz mais dramática. O modelo tornou-se progressivamente mais teatral até que Murati exigiu que ele girasse rapidamente para uma voz de robô convincente (na qual se destacava). Embora previsivelmente houvesse algumas pequenas pausas durante a conversa enquanto o modelo raciocinava sobre o que dizer a seguir, ela se destacou como uma conversa de IA de ritmo notavelmente natural.

O modelo também pode raciocinar sobre problemas visuais em tempo real. Usando seu telefone, Zoph se filmou escrevendo uma equação de álgebra (3 x + 1 = 4) em uma folha de papel, acompanhada pelo GPT-4o. Ele o instruiu a não fornecer respostas, mas, em vez disso, a orientá-lo como um professor faria.

“O primeiro passo é obter todos os termos com x de um lado”, disse o modelo em tom amigável. “Então, o que você acha que deveríamos fazer com esse mais um?”

Assim como as gerações anteriores do GPT, o GPT-4o armazenará registros das interações dos usuários com ele, o que significa que o modelo “tem uma sensação de continuidade em todas as suas conversas”, segundo Murati. Outros novos destaques incluem tradução ao vivo, a capacidade de pesquisar suas conversas com o modelo e o poder de pesquisar informações em tempo real…

Veja o artigo completo no site MIT Technology Review