Programas para detectar IA discriminam falantes não nativos de inglês, mostra estudo

Publicado originalmente por The Guardian

Programas de computador usados para detectar redações, pedidos de emprego e outros trabalhos gerados por inteligência artificial podem discriminar pessoas que não são falantes nativos de inglês, dizem os pesquisadores.

Testes em sete populares detectores de texto de IA descobriram que artigos escritos por pessoas que não falam inglês como primeira língua eram frequentemente sinalizados erroneamente como gerados por IA, um viés que poderia ter um sério impacto em estudantes, acadêmicos e candidatos a empregos.

Com o surgimento do ChatGPT, um programa de IA generativo que pode escrever redações, resolver problemas e criar código de computador, muitos professores agora consideram a detecção de IA como uma “contramedida crítica para impedir uma forma de trapaça do século 21”, dizem os pesquisadores, mas eles alertam que a precisão de 99% reivindicada por alguns detectores é “na melhor das hipóteses enganosa”.

Cientistas liderados por James Zou, professor assistente de ciência de dados biomédicos na Universidade de Stanford, executaram 91 ensaios em inglês escritos por falantes não nativos de inglês por meio de sete detectores GPT populares para ver o desempenho dos programas.

Mais da metade das redações, que foram escritas para um teste de proficiência em inglês amplamente reconhecido conhecido como Teste de Inglês como Língua Estrangeira, ou TOEFL, foram sinalizadas como geradas por IA, com um programa sinalizando 98% das redações como compostas por IA. Quando ensaios escritos por alunos nativos da oitava série nos EUA foram executados nos programas, os mesmos detectores de IA classificaram mais de 90% como gerados por humanos.

Escrevendo na revista Patterns, os cientistas traçaram a discriminação à maneira como os detectores avaliam o que é humano e o que é gerado por IA. Os programas analisam o que é chamado de “perplexidade do texto”, que é uma medida de quão “surpreso” ou “confuso” um modelo de linguagem generativa está ao tentar prever a próxima palavra em uma frase. Se o modelo puder prever a próxima palavra facilmente, a perplexidade do texto será classificada como baixa, mas se a próxima palavra for difícil de prever, a perplexidade do texto será classificada como alta…

Veja o artigo completo no site The Guardian