Somos todos trabalhadores da IA, fornecendo dados gratuitos

Publicado originalmente por MIT Technology Review

Esta semana tenho pensado muito sobre o trabalho humano por trás de modelos sofisticados de IA.

O segredo para fazer com que os chatbots de IA pareçam inteligentes e gerem menos bobagens tóxicas é usar uma técnica chamada aprendizado por reforço a partir do feedback humano, que usa informações das pessoas para melhorar as respostas do modelo.

Ele conta com um pequeno exército de anotadores de dados humanos que avaliam se uma sequência de texto faz sentido e soa fluente e natural. Eles decidem se uma resposta deve ser mantida no banco de dados do modelo de IA ou removida.

Mesmo os chatbots de IA mais impressionantes exigem milhares de horas de trabalho humano para se comportar da maneira que seus criadores desejam, e mesmo assim eles o fazem de maneira não confiável. O trabalho pode ser brutal e perturbador, como ouviremos esta semana, quando a Conferência ACM sobre Justiça, Responsabilidade e Transparência (FAccT) começar. É uma conferência que reúne pesquisas sobre assuntos sobre os quais gosto de escrever, como tornar os sistemas de IA mais responsáveis e éticos.

Um painel que estou ansioso é com o pioneiro da ética em IA, Timnit Gebru, que costumava liderar o departamento de ética em IA do Google antes de ser demitido. Gebru falará sobre como os trabalhadores de dados na Etiópia, Eritreia e Quênia são explorados para limpar o ódio online e a desinformação. Os anotadores de dados no Quênia, por exemplo, recebiam menos de US$ 2 por hora para filtrar resmas de conteúdo perturbador sobre violência e abuso sexual, a fim de tornar o ChatGPT menos tóxico. Esses trabalhadores agora estão se sindicalizando para obter melhores condições de trabalho.

Em uma série do MIT Technology Review no ano passado, exploramos como a IA está criando uma nova ordem mundial colonial, e os trabalhadores de dados estão arcando com o peso disso. Iluminar as práticas de trabalho exploradoras em torno da IA tornou-se ainda mais urgente e importante com o surgimento de chatbots populares de IA, como ChatGPT, Bing e Bard, e IA geradora de imagens, como DALL-E 2 e Stable Diffusion.

Os anotadores de dados estão envolvidos em todas as etapas do desenvolvimento da IA, desde o treinamento de modelos até a verificação de seus resultados e a oferta de feedback que possibilita o ajuste fino de um modelo após seu lançamento. Muitas vezes, eles são forçados a trabalhar em um ritmo incrivelmente rápido para cumprir metas altas e prazos apertados, diz Srravya Chandhiramowuli, pesquisadora PhD que estuda práticas trabalhistas em trabalho de dados na City, Universidade de Londres.

Chandhiramowuli me contou sobre um caso em que um anotador de dados na Índia teve que diferenciar imagens de garrafas de refrigerante e escolher aquelas que se parecessem com Dr. Pepper. Mas o Dr. Pepper não é um produto vendido na Índia, e o ônus era do anotador de dados descobrir isso.

A expectativa é que os anotadores descubram os valores que são importantes para a empresa, diz Chandhiramowuli. “Eles não estão apenas aprendendo essas coisas distantes e distantes que são absolutamente sem sentido para eles – eles também estão descobrindo não apenas quais são esses outros contextos, mas quais são as prioridades do sistema que estão construindo”, diz ela.

Na verdade, somos todos trabalhadores de dados para grandes empresas de tecnologia, estejamos cientes disso ou não, argumentam pesquisadores da Universidade da Califórnia, Berkeley, da Universidade da Califórnia, Davis, da Universidade de Minnesota e da Universidade Northwestern em um novo Trabalho apresentado na FAccT…

Veja o artigo completo no site MIT Technology Review