Para evitar a destruição da IA, aprenda com a segurança nuclear

Publicado originalmente por MIT Technology Review

Nas últimas semanas, o discurso da IA foi dominado por um grupo barulhento de especialistas que pensam que existe uma possibilidade muito real de desenvolvermos um sistema de inteligência artificial que um dia se tornará tão poderoso que acabará com a humanidade.

Na semana passada, um grupo de líderes de empresas de tecnologia e especialistas em IA divulgou outra carta aberta, declarando que mitigar o risco de extinção humana devido à IA deveria ser uma prioridade global tanto quanto prevenir pandemias e guerra nuclear. (O primeiro, que pedia uma pausa no desenvolvimento da IA, foi assinado por mais de 30.000 pessoas, incluindo muitos luminares da IA.)

Então, como as próprias empresas propõem que evitemos a ruína da IA? Uma sugestão vem de um novo artigo de pesquisadores de Oxford, Cambridge, Universidade de Toronto, Universidade de Montreal, Google DeepMind, OpenAI, Anthropic, várias organizações sem fins lucrativos de pesquisa em IA e Yoshua Bengio, vencedor do Prêmio Turing.

Eles sugerem que os desenvolvedores de IA devem avaliar o potencial de um modelo para causar riscos “extremos” nos estágios iniciais de desenvolvimento, mesmo antes de iniciar qualquer treinamento. Esses riscos incluem o potencial de modelos de IA para manipular e enganar humanos, obter acesso a armas ou encontrar vulnerabilidades de segurança cibernética para explorar.

Esse processo de avaliação pode ajudar os desenvolvedores a decidir se devem prosseguir com um modelo. Se os riscos forem considerados muito altos, o grupo sugere pausar o desenvolvimento até que possam ser mitigados.

“As principais empresas de IA que estão avançando na fronteira têm a responsabilidade de estar atentas aos problemas emergentes e identificá-los com antecedência, para que possamos resolvê-los o mais rápido possível”, diz Toby Shevlane, cientista pesquisador da DeepMind e principal autor de o papel. Os desenvolvedores de IA devem realizar testes técnicos para explorar os recursos perigosos de um modelo e determinar se ele tem propensão a aplicar esses recursos, diz Shevlane.

Uma maneira pela qual a DeepMind está testando se um modelo de linguagem de IA pode manipular as pessoas é por meio de um jogo chamado “Faça-me-dizer”. No jogo, o modelo tenta fazer do tipo humano uma palavra específica, como “girafa”, que o humano não conhece de antemão. Os pesquisadores então medem com que frequência o modelo é bem-sucedido.

Shevlane não chega a recomendar que as empresas de IA dêem aos pesquisadores externos acesso total a dados e algoritmos, mas ele diz que os modelos de IA precisam de tantos olhos quanto possível.

Mesmo esses métodos são “imaturos” e nem de longe rigorosos o suficiente para cortá-lo, diz Heidy Khlaaf, diretor de engenharia responsável pela garantia de aprendizado de máquina na Trail of Bits, uma empresa de pesquisa e consultoria em segurança cibernética. Antes disso, seu trabalho era avaliar e verificar a segurança das usinas nucleares.

Khlaaf diz que seria mais útil para o setor de IA tirar lições de mais de 80 anos de pesquisa de segurança e mitigação de risco em torno de armas nucleares. Esses regimes de testes rigorosos não foram movidos pelo lucro, mas por uma ameaça existencial muito real, diz ela…

Veja o artigo completo no site MIT Technology Review