Publicado originalmente por MIT Technology Review
Modelos populares de geração de imagens podem ser solicitados a produzir fotos identificáveis de pessoas reais, potencialmente ameaçando sua privacidade, de acordo com uma nova pesquisa. O trabalho também mostra que esses sistemas de IA podem ser feitos para regurgitar cópias exatas de imagens médicas e trabalhos protegidos por direitos autorais de artistas. É uma descoberta que pode fortalecer o caso de artistas que atualmente estão processando empresas de IA por violações de direitos autorais.
Os pesquisadores, do Google, DeepMind, UC Berkeley, ETH Zürich e Princeton, obtiveram seus resultados solicitando Stable Diffusion e Google’s Imagen com legendas para imagens, como o nome de uma pessoa, muitas vezes. Em seguida, eles analisaram se alguma das imagens geradas correspondia às imagens originais no banco de dados do modelo. O grupo conseguiu extrair mais de 100 réplicas de imagens no conjunto de treinamento da IA.
Esses modelos de IA geradores de imagens são treinados em vastos conjuntos de dados que consistem em imagens com descrições de texto que foram extraídas da Internet. A última geração da tecnologia funciona pegando imagens no conjunto de dados e alterando um pixel por vez até que a imagem original não seja nada além de uma coleção de pixels aleatórios. O modelo AI então reverte o processo para transformar a bagunça pixelizada em uma nova imagem.
O artigo é a primeira vez que os pesquisadores conseguiram provar que esses modelos de IA memorizam imagens em seus conjuntos de treinamento, diz Ryan Webster, aluno de doutorado da Universidade de Caen Normandy, na França, que estudou privacidade em outros modelos de geração de imagens, mas não foi envolvidos na pesquisa. Isso pode ter implicações para startups que desejam usar modelos generativos de IA na área da saúde, porque mostra que esses sistemas correm o risco de vazar informações privadas confidenciais. OpenAI, Google e Stability.AI não responderam aos nossos pedidos de comentários.
Eric Wallace, um estudante de doutorado da UC Berkeley que fazia parte do grupo de estudo, diz que espera alertar sobre os possíveis problemas de privacidade em torno desses modelos de IA antes que sejam amplamente implementados em setores sensíveis como a medicina.
“Muitas pessoas são tentadas a aplicar esses tipos de abordagens generativas a dados confidenciais, e nosso trabalho é definitivamente um alerta de que essa provavelmente é uma má ideia, a menos que haja algum tipo de proteção extrema para evitar [violações de privacidade], ”Wallace diz.
A medida em que esses modelos de IA memorizam e regurgitam imagens de seus bancos de dados também está na raiz de uma grande disputa entre empresas de IA e artistas. A Stability.AI está enfrentando dois processos de um grupo de artistas e da Getty Images, que argumentam que a empresa raspou e processou ilegalmente seu material protegido por direitos autorais.
As descobertas dos pesquisadores podem fortalecer a mão de artistas que acusam empresas de IA de violações de direitos autorais. Se os artistas cujo trabalho foi usado para treinar a Stable Diffusion puderem provar que o modelo copiou seu trabalho sem permissão, a empresa pode ter que compensá-los.
As descobertas são oportunas e importantes, diz Sameer Singh, professor associado de ciência da computação na Universidade da Califórnia, em Irvine, que não participou da pesquisa. “É importante para a conscientização do público em geral e para iniciar discussões sobre segurança e privacidade desses grandes modelos”, acrescenta…
Veja o artigo completo no site MIT Technology Review