As pessoas pagas para treinar IA estão terceirizando seu trabalho… para IA

Publicado originalmente por MIT Technology Review

Uma proporção significativa de pessoas pagas para treinar modelos de IA pode estar terceirizando esse trabalho para a IA, descobriu um novo estudo. 

É preciso uma quantidade incrível de dados para treinar sistemas de IA para executar tarefas específicas de forma precisa e confiável. Muitas empresas pagam trabalhadores temporários em plataformas como o Mechanical Turk para concluir tarefas que normalmente são difíceis de automatizar, como resolver CAPTCHAs, rotular dados e anotar texto. Esses dados são então inseridos em modelos de IA para treiná-los. Os trabalhadores são mal pagos e geralmente esperam concluir muitas tarefas muito rapidamente. 

Não é de se espantar que alguns deles estejam recorrendo a ferramentas como o ChatGPT para maximizar seu potencial de ganho. Mas quantos? Para descobrir, uma equipe de pesquisadores do Instituto Federal Suíço de Tecnologia (EPFL) contratou 44 pessoas na plataforma de trabalho temporário Amazon Mechanical Turk para resumir 16 extratos de artigos de pesquisa médica. Em seguida, eles analisaram suas respostas usando um modelo de IA que eles próprios treinaram e que procura sinais reveladores da saída do ChatGPT, como falta de variedade na escolha de palavras. Eles também extraíram as teclas digitadas pelos trabalhadores em uma tentativa de descobrir se eles copiaram e colaram suas respostas, um indicador de que geraram suas respostas em outro lugar.

Eles estimaram que algo entre 33% e 46% dos trabalhadores usaram modelos de IA como o ChatGPT da OpenAI. É uma porcentagem que provavelmente crescerá ainda mais à medida que o ChatGPT e outros sistemas de IA se tornam mais poderosos e facilmente acessíveis, de acordo com os autores do estudo, que foi compartilhado no arXiv e ainda precisa ser revisado por pares. 

“Não acho que seja o fim das plataformas de crowdsourcing. Isso apenas muda a dinâmica”, diz Robert West, professor assistente na EPFL, coautor do estudo. 

Usar dados gerados por IA para treinar IA pode introduzir mais erros em modelos já propensos a erros. Grandes modelos de linguagem regularmente apresentam informações falsas como fatos. Se eles geram saída incorreta que é usada para treinar outros modelos de IA, os erros podem ser absorvidos por esses modelos e amplificados ao longo do tempo, tornando cada vez mais difícil descobrir suas origens, diz Ilia Shumailov, pesquisador júnior em ciência da computação na Universidade de Oxford, que não estava envolvido no projeto.

Pior ainda, não há uma solução simples. “O problema é que, quando você usa dados artificiais, você adquire os erros dos mal-entendidos dos modelos e erros estatísticos”, ele diz. “Você precisa ter certeza de que seus erros não estão enviesando a saída de outros modelos, e não há uma maneira simples de fazer isso.”

O estudo destaca a necessidade de novas maneiras de verificar se os dados foram produzidos por humanos ou IA. Ele também destaca um dos problemas com a tendência das empresas de tecnologia de depender de trabalhadores temporários para fazer o trabalho vital de organizar os dados alimentados aos sistemas de IA.  

..

Veja o artigo completo no site MIT Technology Review


Mais desse tópico: