A verdade complicada sobre como a IA generativa usa seus dados

Publicado originalmente por Vox

Quando a Casa Branca revelou sua lista de compromissos voluntários de segurança e sociais assinados por sete empresas de IA, uma coisa estava faltando: qualquer coisa relacionada aos dados que esses sistemas de IA coletam e usam para treinar essa poderosa tecnologia. Incluindo, muito provavelmente, o seu.

Existem muitas preocupações sobre o dano potencial que sistemas sofisticados de IA generativa desencadearam no público. O que eles fazem com nossos dados é um deles. Sabemos muito pouco sobre onde esses modelos obtêm os petabytes de dados de que precisam, como esses dados estão sendo usados e quais proteções, se houver, estão em vigor quando se trata de informações confidenciais. As empresas que fabricam esses sistemas não estão nos contando muito e podem nem mesmo saber .

Você pode estar bem com tudo isso, ou pensar que o bem que a IA generativa pode fazer supera em muito qualquer coisa ruim que tenha sido construída. Mas muitas outras pessoas não são.

Duas semanas atrás, um tweet viral acusou o Google de coletar dados do Google Docs para treinar suas ferramentas de IA. Em um acompanhamento, seu autor afirmou que o Google “usou documentos e e-mails para treinar sua IA por anos”. O tweet inicial tem quase 10 milhões de visualizações e foi retuitado milhares de vezes. O fato de que isso pode nem ser verdade é quase irrelevante. (O Google diz que não usa dados de seus produtos Workspace gratuitos ou corporativos – que incluem Gmail e Docs – para treinar seus modelos de IA generativos, a menos que tenha permissão do usuário, embora treine alguns recursos de IA do Workspace, como verificação ortográfica e Smart Compose usando anonimizado dados.)..

Veja o artigo completo no site Vox