A Meta criou uma maneira de marcar a fala gerada por IA

Publicado originalmente por MIT Technology Review

A Meta criou um sistema que pode incorporar sinais ocultos, conhecidos como marcas d’água, em clipes de áudio gerados por IA, o que pode ajudar a detectar conteúdo gerado por IA online.

A ferramenta, chamada AudioSeal, é a primeira que pode identificar quais bits de áudio em, por exemplo, um podcast de uma hora inteira podem ter sido gerados por IA. Ela pode ajudar a lidar com o crescente problema de desinformação e golpes usando ferramentas de clonagem de voz, diz Hady Elsahar, um cientista pesquisador da Meta. Atores maliciosos usaram IA generativa para criar deepfakes de áudio do presidente Joe Biden, e golpistas usaram deepfakes para chantagear suas vítimas. As marcas d’água podem, em teoria, ajudar as empresas de mídia social a detectar e remover conteúdo indesejado.

No entanto, há algumas grandes ressalvas. A Meta diz que ainda não tem planos de aplicar as marcas d’água ao áudio gerado por IA criado usando suas ferramentas. As marcas d’água de áudio ainda não são amplamente adotadas, e não há um único padrão da indústria acordado para elas. E as marcas d’água para conteúdo gerado por IA tendem a ser fáceis de adulterar — por exemplo, removendo-as ou falsificando-as.

A detecção rápida e a capacidade de identificar quais elementos de um arquivo de áudio são gerados por IA serão essenciais para tornar o sistema útil, diz Elsahar. Ele diz que a equipe atingiu entre 90% e 100% de precisão na detecção de marcas d’água, resultados muito melhores do que em tentativas anteriores de colocar marcas d’água em áudio.

O AudioSeal está disponível no GitHub gratuitamente. Qualquer um pode baixá-lo e usá-lo para adicionar marcas d’água a clipes de áudio gerados por IA. Ele poderia eventualmente ser sobreposto em cima de modelos de geração de áudio de IA, para que seja aplicado automaticamente a qualquer fala gerada usando-os. Os pesquisadores que o criaram apresentarão seu trabalho na International Conference on Machine Learning em Viena, Áustria, em julho.

O AudioSeal é criado usando duas redes neurais. Uma gera sinais de marca d’água que podem ser incorporados em faixas de áudio. Esses sinais são imperceptíveis ao ouvido humano, mas podem ser detectados rapidamente usando a outra rede neural. Atualmente, se você quiser tentar localizar áudio gerado por IA em um clipe mais longo, você tem que vasculhar tudo em pedaços de segundos para ver se algum deles contém uma marca d’água. Este é um processo lento e trabalhoso, e não é prático em plataformas de mídia social com milhões de minutos de fala.

O AudioSeal funciona de forma diferente: incorporando uma marca d’água em cada seção de toda a trilha de áudio. Isso permite que a marca d’água seja “localizada”, o que significa que ela ainda pode ser detectada mesmo se o áudio for cortado ou editado.

Ben Zhao, professor de ciência da computação na Universidade de Chicago, diz que essa capacidade e a precisão de detecção quase perfeita tornam o AudioSeal melhor do que qualquer sistema de marca d’água de áudio anterior que ele já conheceu.

Isso coloca algumas limitações fundamentais na ferramenta, diz Zhao. “Onde o invasor tem algum acesso ao detector [de marca d’água], ele é bem frágil”, ele diz. E isso significa que somente o Meta será capaz de verificar se o conteúdo de áudio é gerado por IA ou não.

Leibowicz diz que continua não convencida de que as marcas d’água realmente aumentarão a confiança do público nas informações que estão vendo ou ouvindo, apesar de sua popularidade como uma solução no setor de tecnologia. Isso ocorre em parte porque elas próprias são muito abertas a abusos.

“Sou cética quanto à possibilidade de qualquer marca d’água ser resistente a falsificações e roubos”, ela acrescenta…

Veja o artigo completo no site MIT Technology Review