OpenAI apaga acidentalmente evidências potenciais em processo de dados de treinamento

Publicado originalmente por The Verge

Em um erro impressionante, os engenheiros da OpenAI apagaram acidentalmente evidências críticas coletadas pelo The New York Times e outros grandes jornais em seu processo sobre dados de treinamento de IA, de acordo com um processo judicial na quarta-feira.

As equipes jurídicas dos jornais passaram mais de 150 horas pesquisando os dados de treinamento de IA da OpenAI para encontrar instâncias em que seus artigos de notícias foram incluídos, afirma o processo. Mas não explica como esse erro ocorreu ou o que precisamente os dados incluíam. Embora o processo diga que a OpenAI admitiu o erro e tentou recuperar os dados, o que conseguiu salvar estava incompleto e não confiável — então o que foi recuperado não pode ajudar a rastrear adequadamente como os artigos das organizações de notícias foram usados na construção dos modelos de IA da OpenAI. Embora os advogados da OpenAI tenham caracterizado o apagamento de dados como uma “falha”, os advogados do The New York Times observaram que não tinham “nenhuma razão para acreditar” que foi intencional.

A New York Times Company lançou essa batalha histórica em dezembro passado, alegando que a OpenAI e sua parceira Microsoft construíram suas ferramentas de IA “copiando e usando milhões” de artigos da publicação e agora “competem diretamente” com seu conteúdo como resultado. A publicação está pedindo que a OpenAI seja responsabilizada por “bilhões de dólares em danos estatutários e reais” por supostamente copiar seus trabalhos.

O Times já gastou mais de US$ 1 milhão batalhando contra a OpenAI no tribunal — uma taxa significativa que poucas editoras podem igualar. Enquanto isso, a OpenAI fechou acordos com grandes veículos como Axel Springer, Conde Nast e a empresa controladora do The Verge, Vox Media, sugerindo que muitas editoras preferem fazer parcerias do que brigar…

Veja o artigo completo no site The Verge