Publicado originalmente por MIT Technology Review
Quando Taylor Webb brincou com o GPT-3 no início de 2022, ele ficou impressionado com o que o grande modelo de linguagem da OpenAI parecia ser capaz de fazer. Aqui estava uma rede neural treinada apenas para prever a próxima palavra em um bloco de texto — um autocompletar acelerado. E ainda assim deu respostas corretas para muitos dos problemas abstratos que Webb definiu para ela — o tipo de coisa que você encontraria em um teste de QI. “Fiquei realmente chocado com sua capacidade de resolver esses problemas”, diz ele. “Isso derrubou completamente tudo o que eu teria previsto.”
Webb é um psicólogo na Universidade da Califórnia, Los Angeles, que estuda as diferentes maneiras como pessoas e computadores resolvem problemas abstratos. Ele estava acostumado a construir redes neurais que tinham capacidades específicas de raciocínio acopladas. Mas o GPT-3 parecia tê-las aprendido de graça.
No mês passado, Webb e seus colegas publicaram um artigo na Nature, no qual descrevem a capacidade do GPT-3 de passar por uma variedade de testes concebidos para avaliar o uso de analogia para resolver problemas (conhecido como raciocínio analógico). Em alguns desses testes, o GPT-3 pontuou melhor do que um grupo de estudantes de graduação. “A analogia é central para o raciocínio humano”, diz Webb. “Nós pensamos nisso como uma das principais coisas que qualquer tipo de inteligência de máquina precisaria demonstrar.”
O que a pesquisa de Webb destaca é apenas o mais recente de uma longa série de truques notáveis realizados por grandes modelos de linguagem. Por exemplo, quando a OpenAI revelou o sucessor do GPT-3, o GPT-4, em março, a empresa publicou uma lista impressionante de avaliações profissionais e acadêmicas que ela alegou que seu novo modelo de grande linguagem havia passado, incluindo algumas dezenas de testes do ensino médio e o exame da ordem. Mais tarde, a OpenAI trabalhou com a Microsoft para mostrar que o GPT-4 poderia passar em partes do Exame de Licenciamento Médico dos Estados Unidos.
E vários pesquisadores afirmam ter demonstrado que grandes modelos de linguagem podem passar em testes projetados para identificar certas habilidades cognitivas em humanos, desde o raciocínio em cadeia de pensamento (resolver um problema passo a passo) até a teoria da mente (adivinhar o que outras pessoas estão pensando).
Tais resultados estão alimentando uma máquina de propaganda enganosa que prevê que os computadores logo virão para empregos de colarinho branco, substituindo professores, jornalistas, advogados e muito mais. Geoffrey Hinton chamou a aparente capacidade do GPT-4 de unir pensamentos como uma das razões pelas quais ele agora tem medo da tecnologia que ajudou a criar .
Mas há um problema: há pouco acordo sobre o que esses resultados realmente significam. Algumas pessoas ficam deslumbradas com o que veem como lampejos de inteligência semelhante à humana. Outras não estão nem um pouco convencidas.
“Há vários problemas críticos com as técnicas de avaliação atuais para grandes modelos de linguagem”, diz Natalie Shapira, cientista da computação na Universidade Bar-Ilan em Ramat Gan, Israel. “Isso cria a ilusão de que eles têm capacidades maiores do que as que realmente existem.”
..
Veja o artigo completo no site MIT Technology Review