Publicado originalmente por Ars Technica
De qualquer forma, os especialistas acham que o OpenAI deve ser menos opaco sobre sua arquitetura de modelo de IA.
Na terça-feira, pesquisadores da Universidade de Stanford e da Universidade da Califórnia, em Berkeley, divulgaram um trabalho de pesquisa que pretende mostrar as mudanças nas saídas do GPT-4 ao longo do tempo. O artigo alimenta uma crença comum, mas não comprovada, de que o modelo de linguagem da IA piorou nas tarefas de codificação e composição nos últimos meses. Alguns especialistas não estão convencidos com os resultados, mas dizem que a falta de certeza aponta para um problema maior em como o OpenAI lida com os lançamentos de seus modelos.
Em um estudo intitulado “Como o comportamento do ChatGPT está mudando com o tempo?” listados no arXiv, Lingjiao Chen, Matei Zaharia e James Zou lançam dúvidas sobre o desempenho consistente dos modelos de linguagem grande (LLMs) da OpenAI, especificamente GPT-3.5 e GPT-4. Usando o acesso à API, eles testaram as versões de março e junho de 2023 desses modelos em tarefas como resolução de problemas matemáticos, resposta a perguntas delicadas, geração de código e raciocínio visual. Mais notavelmente, a capacidade do GPT-4 de identificar números primos caiu drasticamente de uma precisão de 97,6% em março para apenas 2,4% em junho. Estranhamente, o GPT-3.5 apresentou melhor desempenho no mesmo período.
Este estudo vem na esteira de pessoas que frequentemente reclamam que o desempenho do GPT-4 diminuiu subjetivamente nos últimos meses. Teorias populares sobre o porquê incluem modelos de “destilação” OpenAI para reduzir sua sobrecarga computacional em uma busca para acelerar a saída e economizar recursos de GPU, ajuste fino (treinamento adicional) para reduzir saídas prejudiciais que podem ter efeitos não intencionais e um punhado de problemas não suportados teorias da conspiração, como OpenAI, reduzindo os recursos de codificação do GPT-4 para que mais pessoas paguem pelo GitHub Copilot.
Enquanto isso, a OpenAI negou consistentemente quaisquer alegações de que o GPT-4 tenha diminuído sua capacidade. Na última quinta-feira, o vice-presidente de produto da OpenAI, Peter Welinder, twittou: “Não, não tornamos o GPT-4 mais burro. Muito pelo contrário: tornamos cada nova versão mais inteligente do que a anterior. Hipótese atual: quando você o usa mais fortemente, você começa a perceber problemas que não via antes.”
Embora este novo estudo possa parecer uma arma fumegante para provar os palpites dos críticos do GPT-4, outros dizem que não tão rápido. O professor de ciência da computação de Princeton, Arvind Narayanan, acha que suas descobertas não provam conclusivamente um declínio no desempenho do GPT-4 e são potencialmente consistentes com os ajustes de ajuste fino feitos pelo OpenAI. Por exemplo, em termos de medição das capacidades de geração de código, ele criticou o estudo por avaliar o imediatismo da capacidade do código de ser executado, em vez de sua exatidão.
“A mudança que eles relatam é que o GPT-4 mais recente adiciona texto sem código à sua saída. Eles não avaliam a exatidão do código (estranho)”, ele twittou. “Eles apenas verificam se o código é diretamente executável. Portanto, a tentativa do modelo mais recente de ser mais útil contou contra isso.”..
Veja o artigo completo no site Ars Technica