O que são agentes de IA?

Publicado originalmente por MIT Technology Review

MIT Technology Review explica: Deixe que nossos escritores destrinchem o complexo e bagunçado mundo da tecnologia para ajudar você a entender o que vem a seguir. Você pode ler mais da série aqui.

Quando o ChatGPT foi lançado pela primeira vez, todos na IA estavam falando sobre a nova geração de assistentes de IA. Mas, no ano passado, essa empolgação se voltou para um novo alvo: agentes de IA.

Os agentes tiveram destaque na conferência anual I/O do Google em maio, quando a empresa revelou seu novo agente de IA chamado Astra, que permite que os usuários interajam com ele usando áudio e vídeo. O novo modelo GPT-4o da OpenAI também foi chamado de agente de IA.

E não é só exagero, embora definitivamente haja um pouco disso também. Empresas de tecnologia estão investindo grandes somas na criação de agentes de IA, e seus esforços de pesquisa podem inaugurar o tipo de IA útil com que sonhamos há décadas. Muitos especialistas, incluindo Sam Altman, dizem que eles são a próxima grande novidade.

Mas o que são? E como podemos usá-los?

Ainda é cedo para pesquisas sobre agentes de IA, e o campo não tem uma definição definitiva para eles. Mas, simplesmente, eles são modelos e algoritmos de IA que podem tomar decisões autonomamente em um mundo dinâmico, diz Jim Fan, um cientista pesquisador sênior da Nvidia que lidera a iniciativa de agentes de IA da empresa.

A grande visão para agentes de IA é um sistema que pode executar uma vasta gama de tarefas, muito parecido com um assistente humano. No futuro, ele pode ajudar você a reservar suas férias, mas também vai lembrar se você prefere hotéis chiques, então ele só vai sugerir hotéis que tenham quatro estrelas ou mais e então vai em frente e reserva aquele que você escolher da gama de opções que ele oferece. Ele também vai sugerir voos que funcionam melhor com seu calendário e planejar o itinerário para sua viagem de acordo com suas preferências. Ele pode fazer uma lista de coisas para levar com base nesse plano e na previsão do tempo. Ele pode até enviar seu itinerário para qualquer amigo que ele saiba que mora em seu destino e convidá-los para ir junto. No local de trabalho, ele pode analisar sua lista de tarefas e executar tarefas a partir dela, como enviar convites de calendário, memorandos ou e-mails.

Uma visão para agentes é que eles são multimodais, o que significa que podem processar linguagem, áudio e vídeo. Por exemplo, na demonstração do Astra do Google, os usuários podem apontar uma câmera de smartphone para coisas e fazer perguntas ao agente. O agente pode responder a entradas de texto, áudio e vídeo.

Os agentes de software são executados em computadores ou celulares e usam aplicativos, muito como no exemplo do agente de viagens acima. “Esses agentes são muito úteis para trabalho de escritório ou envio de e-mails ou para ter essa cadeia de eventos acontecendo”, ele diz.

Agentes incorporados são agentes que estão situados em um mundo 3D, como um videogame ou em um robô. Esses tipos de agentes podem tornar os videogames mais envolventes ao permitir que as pessoas joguem com personagens não-jogadores controlados por IA. Esses tipos de agentes também podem ajudar a construir robôs mais úteis que podem nos ajudar com tarefas cotidianas em casa, como dobrar roupa e cozinhar refeições.

Fan fazia parte de uma equipe que construiu um agente de IA incorporado chamado MineDojo no popular jogo de computador Minecraft. Usando um vasto tesouro de dados coletados da internet, o agente de IA de Fan foi capaz de aprender novas habilidades e tarefas que lhe permitiram explorar livremente o mundo virtual 3D e completar tarefas complexas, como cercar lhamas com cercas ou recolher lava em um balde. Os videogames são bons proxies para o mundo real, porque exigem que os agentes entendam física, raciocínio e bom senso…

Veja o artigo completo no site MIT Technology Review