Publicado originalmente por MIT Technology Review
Quando o Google anunciou que estava lançando seu recurso de busca com inteligência artificial no início deste mês, a empresa prometeu que “o Google faria a busca no Google para você”. O novo recurso, chamado AI Overviews, fornece resumos breves gerados por IA destacando informações e links importantes no topo dos resultados da busca.
Infelizmente, os sistemas de IA são inerentemente não confiáveis. Poucos dias após o lançamento do AI Overviews nos EUA, os usuários estavam compartilhando exemplos de respostas que eram estranhas, na melhor das hipóteses. Ele sugeria que os usuários adicionassem cola à pizza ou comessem pelo menos uma pequena pedra por dia, e que o ex-presidente dos EUA Andrew Johnson obteve diplomas universitários entre 1947 e 2012, apesar de ter morrido em 1875.
Na quinta-feira, Liz Reid, chefe do Google Search, anunciou que a empresa vem fazendo melhorias técnicas no sistema para torná-lo menos propenso a gerar respostas incorretas, incluindo melhores mecanismos de detecção para consultas sem sentido. Ela também está limitando a inclusão de conteúdo satírico, humorístico e gerado pelo usuário nas respostas, uma vez que tal material pode resultar em conselhos enganosos.
Mas por que o AI Overviews está retornando informações não confiáveis e potencialmente perigosas? E o que, se houver algo, pode ser feito para consertar isso?
Para entender por que mecanismos de busca com tecnologia de IA erram, precisamos analisar como eles foram otimizados para funcionar. Sabemos que o AI Overviews usa um novo modelo de IA generativo no Gemini, a família de modelos de linguagem grande (LLMs) do Google, que foi personalizado para o Google Search. Esse modelo foi integrado aos principais sistemas de classificação da web do Google e projetado para extrair resultados relevantes de seu índice de sites.
A maioria dos LLMs simplesmente prevê a próxima palavra (ou token) em uma sequência, o que os faz parecer fluentes, mas também os deixa propensos a inventar coisas. Eles não têm nenhuma verdade fundamental para confiar, mas, em vez disso, escolhem cada palavra puramente com base em um cálculo estatístico. Isso leva a alucinações. É provável que o modelo Gemini em AI Overviews contorne isso usando uma técnica de IA chamada geração aumentada de recuperação (RAG), que permite que um LLM verifique fontes específicas fora dos dados em que foi treinado, como certas páginas da web, diz Chirag Shah, um professor da Universidade de Washington especializado em pesquisa online.
Uma vez que um usuário insere uma consulta, ela é verificada em relação aos documentos que compõem as fontes de informação do sistema, e uma resposta é gerada. Como o sistema é capaz de corresponder a consulta original a partes específicas de páginas da web, ele é capaz de citar de onde tirou sua resposta — algo que LLMs normais não conseguem fazer.
Uma grande vantagem do RAG é que as respostas que ele gera para as consultas de um usuário devem ser mais atualizadas, mais precisas factualmente e mais relevantes do que aquelas de um modelo típico que apenas gera uma resposta com base em seus dados de treinamento. A técnica é frequentemente usada para tentar evitar que LLMs tenham alucinações. (Um porta-voz do Google não confirmou se o AI Overviews usa o RAG.)
Mas o RAG está longe de ser infalível. Para que um LLM usando o RAG chegue a uma boa resposta, ele tem que recuperar as informações corretamente e gerar a resposta corretamente. Uma resposta ruim resulta quando uma ou ambas as partes do processo falham…
Veja o artigo completo no site MIT Technology Review