OpenAI e Google estão lançando assistentes de IA superalimentados. Veja como você pode experimentá-los.

Publicado originalmente por MIT Technology Review

Esta semana, o Google e a OpenAI anunciaram que criaram assistentes de IA supercarregados: ferramentas que podem conversar com você em tempo real e se recuperar quando você os interrompe, analisar o ambiente ao seu redor por meio de vídeo ao vivo e traduzir conversas em tempo real.

A OpenAI atacou primeiro na segunda-feira, quando estreou seu novo modelo carro-chefe GPT-4o. A demonstração ao vivo mostrou-o lendo histórias para dormir e ajudando a resolver problemas de matemática, tudo em uma voz que soava estranhamente como a namorada de IA de Joaquin Phoenix no filme Her (uma característica que não passou despercebida ao CEO Sam Altman).

Na terça-feira, o Google anunciou suas próprias novas ferramentas, incluindo um assistente de conversação chamado Gemini Live, que pode fazer muitas das mesmas coisas. Também revelou que está construindo uma espécie de agente de IA “faça tudo”, que está atualmente em desenvolvimento, mas não será lançado até o final deste ano.

Em breve você poderá explorar por si mesmo para avaliar se recorrerá a essas ferramentas em sua rotina diária tanto quanto seus criadores esperam, ou se elas são mais como um truque de festa de ficção científica que eventualmente perde seu charme. Aqui está o que você deve saber sobre como acessar essas novas ferramentas, para que você pode usá-las e quanto custará.

Do que é capaz: O modelo pode falar com você em tempo real, com um atraso de resposta de cerca de 320 milissegundos, o que a OpenAI diz estar no mesmo nível da conversa humana natural. Você pode pedir ao modelo para interpretar qualquer coisa para a qual você apontar a câmera do smartphone e ele pode fornecer assistência em tarefas como codificação ou tradução de texto. Ele também pode resumir informações e gerar imagens, fontes e renderizações 3D.

Como acessá-lo: A OpenAI afirma que começará a lançar os recursos de texto e visão do GPT-4o na interface web, bem como no aplicativo GPT, mas não definiu uma data. A empresa afirma que adicionará as funções de voz nas próximas semanas, embora ainda não tenha uma data exata definida para isso. Os desenvolvedores podem acessar os recursos de texto e visão na API agora, mas o modo de voz será lançado inicialmente apenas para um “pequeno grupo” de desenvolvedores.

Quanto custa: O uso do GPT-4o será gratuito, mas a OpenAI definirá limites de quanto você pode usar o modelo antes de precisar atualizar para um plano pago. Quem aderir a um dos planos pagos da OpenAI, que custam a partir de US$ 20 por mês, terá cinco vezes mais capacidade no GPT-4o.

O que é Gêmeos ao vivo? Este é o produto do Google mais comparável ao GPT-4o – uma versão do modelo de IA da empresa com a qual você pode falar em tempo real. O Google afirma que você também poderá usar a ferramenta para se comunicar por vídeo ao vivo “ainda este ano”. A empresa promete que será um assistente de conversação útil para coisas como preparação para uma entrevista de emprego ou ensaio de um discurso.

Mas espere, o que é o Projeto Astra? Astra é um projeto para construir um agente de IA que faz tudo, que foi demonstrado na conferência I/O do Google, mas não será lançado até o final deste ano.

As pessoas poderão usar o Astra através de seus smartphones e possivelmente de computadores desktop, mas a empresa também está explorando outras opções, como incorporá-lo em óculos inteligentes ou outros dispositivos, disse Oriol Vinyals, vice-presidente de pesquisa do Google DeepMind, ao MIT Technology Review. .

É difícil dizer sem ter em mãos as versões completas desses modelos. O Google exibiu o Projeto Astra por meio de um vídeo sofisticado, enquanto a OpenAI optou por estrear o GPT-4o por meio de uma demonstração ao vivo aparentemente mais autêntica, mas em ambos os casos, os modelos foram solicitados a fazer coisas que os designers provavelmente já praticavam. O verdadeiro teste virá quando eles forem lançados para milhões de usuários com demandas exclusivas…

Veja o artigo completo no site MIT Technology Review