Publicado originalmente por MIT Technology Review
Olivier Godement, chefe de produto da plataforma OpenAI, e Romain Huet, chefe de experiência do desenvolvedor, estão em uma viagem relâmpago pelo mundo. Na semana passada, sentei-me com a dupla em Londres antes do DevDay, a conferência anual de desenvolvedores da empresa. O DevDay de Londres é o primeiro da empresa fora de São Francisco. Godement e Huet estão indo para Cingapura em seguida.
Foram algumas semanas movimentadas para a empresa. Em Londres, a OpenAI anunciou atualizações para sua nova plataforma Realtime API, que permite aos desenvolvedores criar recursos de voz em seus aplicativos. A empresa está lançando novas vozes e uma função que permite aos desenvolvedores gerar prompts, o que permitirá que eles criem aplicativos e assistentes de voz mais úteis mais rapidamente. Enquanto isso, para os consumidores, a OpenAI anunciou que estava lançando a pesquisa ChatGPT, que permite aos usuários pesquisar na internet usando o chatbot. aqui .
Ambos os desenvolvimentos pavimentam o caminho para a próxima grande novidade em IA: agentes. Esses são assistentes de IA que podem completar cadeias complexas de tarefas, como reservar voos. ( Você pode ler meu explicador sobre agentes aqui .)
“Avance alguns anos — todo ser humano na Terra, todo negócio, tem um agente. Esse agente conhece você extremamente bem. Ele conhece suas preferências”, diz Godement. O agente terá acesso aos seus e-mails, aplicativos e calendários e agirá como um chefe de gabinete, interagindo com cada uma dessas ferramentas e até mesmo trabalhando em problemas de longo prazo, como escrever um artigo sobre um tópico específico, diz ele.
A estratégia da OpenAI é tanto construir agentes ela mesma quanto permitir que os desenvolvedores usem seu software para construir seus próprios agentes, diz Godement. A voz desempenhará um papel importante na aparência e na sensação dos agentes.
“No momento, a maioria dos aplicativos são baseados em chat… o que é legal, mas não é adequado para todos os casos de uso. Há alguns casos de uso em que você não está digitando, nem mesmo olhando para a tela, então a voz essencialmente tem uma modalidade muito melhor para isso”, ele diz.
Mas há dois grandes obstáculos que precisam ser superados antes que os agentes possam se tornar realidade, diz Godement.
“Às vezes, esses modelos parecem ser realmente incríveis em raciocínio, mas é como se eles fossem realmente bons em fingir, e basta cutucá-los um pouco para quebrá-los”, diz ele.
Ainda há muito mais trabalho a ser feito, admite Godement. No curto prazo, modelos de IA como o o1 precisam ser muito mais confiáveis, rápidos e baratos. No longo prazo, a empresa precisa aplicar sua técnica de cadeia de pensamento a um conjunto maior de casos de uso. A OpenAI se concentrou em ciência, codificação e matemática. Agora, ela quer abordar outros campos, como direito, contabilidade e economia, diz ele.
O segundo item da lista de tarefas é a capacidade de conectar diferentes ferramentas, diz Godement. As capacidades de um modelo de IA serão limitadas se ele tiver que confiar apenas em seus dados de treinamento. Ele precisa ser capaz de navegar na web e procurar informações atualizadas. A busca ChatGPT é uma maneira poderosa que as novas ferramentas da OpenAI agora podem fazer isso…
Veja o artigo completo no site MIT Technology Review