Estamos caminhando em direção a uma internet com falhas, spam, scammy e AI

Publicado originalmente por MIT Technology Review

Na semana passada, especialistas em IA estavam debatendo acaloradamente uma carta aberta assinada por Elon Musk e vários pesos pesados da indústria, argumentando que a IA representa um “risco existencial” para a humanidade. Eles pediram aos laboratórios que introduzissem uma moratória de seis meses no desenvolvimento de qualquer tecnologia mais poderosa que o GPT-4.

Concordo com os críticos da carta que dizem que a preocupação com os riscos futuros nos distrai dos danos muito reais que a IA já está causando hoje. Sistemas tendenciosos são usados para tomar decisões sobre a vida das pessoas que as prendem na pobreza ou levam a prisões injustas. Os moderadores de conteúdo humano precisam peneirar montanhas de conteúdo traumatizante gerado por IA por apenas US$ 2 por dia. Os modelos de IA de linguagem usam tanto poder de computação que continuam sendo grandes poluidores .

Mas os sistemas que estão sendo eliminados hoje vão causar um tipo diferente de destruição em um futuro muito próximo.

Acabei de publicar uma história que expõe algumas das maneiras pelas quais os modelos de linguagem de IA podem ser mal utilizados. Tenho más notícias: é estupidamente fácil, não requer habilidades de programação e não há correções conhecidas. Por exemplo, para um tipo de ataque chamado injeção de prompt indireto, tudo o que você precisa fazer é ocultar um prompt em uma mensagem habilmente elaborada em um site ou em um e-mail, em texto branco que (contra um fundo branco) não é visível para o olho humano. Depois de fazer isso, você pode solicitar que o modelo de IA faça o que quiser.

As empresas de tecnologia estão incorporando esses modelos profundamente falhos em todos os tipos de produtos, desde programas que geram código até assistentes virtuais que vasculham nossos e-mails e calendários.

Ao fazer isso, eles estão nos levando a uma Internet com falhas, spam, scammy e inteligência artificial.

Permitir que esses modelos de linguagem extraiam dados da Internet dá aos hackers a capacidade de transformá-los em “um mecanismo superpoderoso para spam e phishing”, diz Florian Tramèr, professor assistente de ciência da computação na ETH Zürich, que trabalha com segurança de computadores, privacidade e aprendizado de máquina.

Navegar na Internet usando um navegador com um modelo de linguagem AI integrado também será arriscado. Em um teste, um pesquisador conseguiu que o chatbot do Bing gerasse um texto que fazia parecer que um funcionário da Microsoft estava vendendo produtos da Microsoft com desconto, com o objetivo de tentar obter os detalhes do cartão de crédito das pessoas. Fazer com que a tentativa de golpe apareça não exigiria que a pessoa que usa o Bing fizesse nada, exceto visitar um site com a injeção de prompt oculta.

Existe até o risco de que esses modelos possam ser comprometidos antes de serem implantados na natureza. Os modelos de IA são treinados em grandes quantidades de dados extraídos da Internet. Isso também inclui uma variedade de bugs de software, que a OpenAI descobriu da maneira mais difícil. A empresa teve que desligar temporariamente o ChatGPT depois que um bug extraído de um conjunto de dados de código aberto começou a vazar os históricos de bate-papo dos usuários do bot. O bug foi presumivelmente acidental, mas o caso mostra quantos problemas um bug em um conjunto de dados pode causar.

A equipe de Tramèr descobriu que era barato e fácil “envenenar” conjuntos de dados com o conteúdo que eles plantaram. Os dados comprometidos foram então copiados para um modelo de linguagem AI…

Veja o artigo completo no site MIT Technology Review