Um bot que assistiu 70.000 horas de Minecraft pode desbloquear o próximo grande sucesso da IA

Publicado originalmente por MIT Technology Review

A OpenAI construiu o melhor bot para jogar Minecraft, fazendo com que ele assistisse 70.000 horas de vídeo de pessoas jogando o popular jogo de computador. Ele apresenta uma nova técnica poderosa que poderia ser usada para treinar máquinas para realizar uma ampla gama de tarefas, acessando sites como o YouTube, uma fonte vasta e inexplorada de dados de treinamento.

A IA do Minecraft aprendeu a executar sequências complicadas de cliques no teclado e no mouse para completar tarefas do jogo, como derrubar árvores e criar ferramentas. É o primeiro bot que pode criar as chamadas ferramentas de diamante, uma tarefa que normalmente leva 20 minutos de cliques em alta velocidade para bons jogadores humanos – ou cerca de 24.000 ações.

O resultado é um avanço para uma técnica conhecida como aprendizagem por imitação, na qual as redes neurais são treinadas para realizar tarefas observando os humanos realizá-las. A aprendizagem por imitação pode ser usada para treinar IA para controlar braços robóticos, dirigir carros ou navegar em páginas da web.  

Há uma grande quantidade de vídeos online mostrando pessoas realizando diferentes tarefas. Ao aproveitar este recurso, os pesquisadores esperam fazer para a aprendizagem por imitação o que o GPT-3 fez para grandes modelos de linguagem. “Nos últimos anos, vimos a ascensão deste paradigma GPT-3, onde vemos capacidades incríveis provenientes de grandes modelos treinados em enormes áreas da Internet”, diz Bowen Baker da OpenAI, um dos membros da equipe por trás do novo Minecraft. robô. “Grande parte disso ocorre porque estamos modelando o que os humanos fazem quando estão online.”

O problema com as abordagens existentes para a aprendizagem por imitação é que as demonstrações em vídeo precisam ser rotuladas em cada etapa: fazer esta ação faz com que isso aconteça, fazer aquela ação faz com que aquilo aconteça, e assim por diante. Anotar manualmente dessa maneira dá muito trabalho e, portanto, esses conjuntos de dados tendem a ser pequenos. Baker e seus colegas queriam encontrar uma maneira de transformar os milhões de vídeos disponíveis online em um novo conjunto de dados.

A abordagem da equipe, chamada Video Pre-Training (VPT), ​​contorna o gargalo do aprendizado por imitação, treinando outra rede neural para rotular vídeos automaticamente. Os pesquisadores primeiro contrataram crowdworkers para jogar Minecraft e gravaram os cliques do teclado e do mouse junto com o vídeo em suas telas. Isso deu a eles 2.000 horas de jogo anotado do Minecraft, que eles usaram para treinar um modelo para combinar ações com resultados na tela. Clicar no botão do mouse em determinada situação faz o personagem balançar o machado, por exemplo.  

A próxima etapa foi usar esse modelo para gerar rótulos de ação para 70.000 horas de vídeo não rotulado retirado da Internet e, em seguida, treinar o bot do Minecraft nesse conjunto maior de dados.

“O vídeo é um recurso de treinamento com muito potencial”, diz Peter Stone, diretor executivo da Sony AI America, que já trabalhou com aprendizagem por imitação. 

..

Veja o artigo completo no site MIT Technology Review


Mais desse tópico: