Publicado originalmente por 404 Media
Você provavelmente já viu alguma versão do vídeo abaixo centenas de vezes. Talvez fosse um display de escova de dentes inteligente, uma luminária Ikea ou um Roomba .
O E1M1 – The Hanger de Doom, o primeiro nível do icônico jogo de tiro em primeira pessoa, é frequentemente usado para mostrar como o jogo de código aberto pode rodar em quase qualquer dispositivo que você possa imaginar. O vídeo abaixo é novo não por causa do dispositivo em que está rodando, mas como está rodando. O que você está vendo não é o motor de jogo Doom, mas um modelo de difusão, um tipo de modelo de IA generativo mais comumente usado para gerar mídia, que está respondendo à entrada do jogador em tempo real.
Este é o “ GameNGen ” (pronuncia-se “game engine”), e é o trabalho de pesquisadores do Google, DeepMind e Tel Aviv University. Eles o chamam de “o primeiro game engine alimentado inteiramente por um modelo neural que permite interação em tempo real com um ambiente complexo em longas trajetórias em alta qualidade”. Sem entrar muito em detalhes, essencialmente a maneira como funciona é que o modelo de difusão é uma filmagem de gameplay treinada de Doom para produzir o próximo quadro com base nos quadros que vieram antes dele e na entrada do jogador.
Todos os modelos de IA generativa funcionam essencialmente assim. Eles são treinados em grandes quantidades de dados para prever qual é a próxima palavra, quadro ou pixel para gerar automaticamente a saída desejada. A GameNGen estendeu esse método de forma impressionante para um videogame interativo em tempo real, um tanto funcional. No momento, a GameNGen está rodando a cerca de 20 quadros por segundo, o que é incrivelmente lento, especialmente para um videogame antigo, mas parece Doom. De acordo com o artigo da GameNGen, 10 avaliadores humanos apresentados a 130 clipes de gameplay curtos aleatórios tiveram apenas uma chance ligeiramente melhor do que aleatórios de dizer a diferença entre um clipe gerado pela GameNGen e um clipe de gameplay “real” de Doom. Acho que eu, um estudioso de Doom, faria muito melhor do que isso, mas isso não vem ao caso.
É meio difícil dizer a diferença só de olhar para o vídeo, e se você olhar de perto, tudo o que verá é uma versão meio ruim de Doom (é interessante que a única “alucinação” real que consigo ver no vídeo aparece quando o jogador atira em um inimigo, o que resulta em algumas animações de feedback borradas), mas o futuro sugerido pelos pesquisadores e pelo nome do projeto é que a tecnologia pode chegar a um ponto em que mudará completamente a forma como os jogos são feitos.
“Hoje, os videogames são programados por humanos. O GameNGen é uma prova de conceito para uma parte de um novo paradigma em que os jogos são pesos de um modelo neural, não linhas de código”, escrevem os pesquisadores. “O GameNGen mostra que uma arquitetura e pesos de modelo existem de modo que um modelo neural pode efetivamente executar um jogo complexo (DOOM) interativamente em hardware existente. Embora muitas questões importantes permaneçam, estamos esperançosos de que esse paradigma possa ter benefícios importantes. Por exemplo, o processo de desenvolvimento de videogames sob esse novo paradigma pode ser menos custoso e mais acessível, por meio do qual os jogos podem ser desenvolvidos e editados por meio de descrições textuais ou imagens de exemplo. Uma pequena parte dessa visão, ou seja, criar modificações ou novos comportamentos para jogos existentes, pode ser alcançável em um prazo mais curto.”..
Veja o artigo completo no site 404 Media