Publicado originalmente por MIT Technology Review
Você pode não estar familiarizado com Kuaishou, mas esta empresa chinesa acaba de atingir um marco importante: lançou o primeiro modelo de IA generativo de texto para vídeo que está disponível gratuitamente para o público testar.
A plataforma de vídeos curtos, que conta com mais de 600 milhões de usuários ativos, anunciou a nova ferramenta no dia 6 de junho. Chama-se Kling. Assim como o modelo Sora da OpenAI, Kling é capaz de gerar vídeos “de até dois minutos de duração com taxa de quadros de 30fps e resolução de vídeo de até 1080p”, afirma a empresa em seu site .
Mas, ao contrário do Sora, que ainda permanece inacessível ao público quatro meses após o teste da OpenAI, Kling logo começou a permitir que as pessoas experimentassem o modelo por conta própria.
Eu era um deles. Tive acesso a ele depois de baixar a ferramenta de edição de vídeo do Kuaishou, me inscrever com um número chinês, entrar na lista de espera e preencher um formulário adicional por meio dos grupos de feedback de usuários do Kuaishou. O modelo não pode processar prompts escritos inteiramente em inglês, mas você pode contornar isso traduzindo a frase que deseja usar para o chinês ou incluindo uma ou duas palavras em chinês.
Então, as primeiras coisas primeiro. Aqui estão alguns resultados que gerei com Kling para mostrar como é. Lembra do impressionante vídeo de demonstração de Sora das cenas de rua de Tóquio ou do gato correndo por um jardim ? Aqui estão as tomadas de Kling:
Lembra-se da imagem do astronauta a cavalo de Dall-E ? Pedi a Kling para gerar uma versão em vídeo também.
Há algumas coisas que valem a pena aplaudir aqui. Nenhum desses vídeos se desvia muito do prompt, e a física parece correta – o movimento panorâmico da câmera, o movimento das folhas e a maneira como o cavalo e o astronauta giram, mostrando a Terra atrás deles. O processo de geração demorou cerca de três minutos para cada um deles. Não é o mais rápido, mas totalmente aceitável.
Se você quiser ver mais vídeos gerados pelo Kling, confira esta coleção útil reunida por uma comunidade de IA de código aberto na China, que inclui resultados impressionantes e todos os tipos de falhas.
As capacidades gerais do Kling são boas o suficiente, diz Guizang, um artista de IA em Pequim que tem testado o modelo desde o seu lançamento e compilou uma série de comparações diretas entre Sora e Kling. A desvantagem de Kling está na estética dos resultados, diz ele, como na composição ou na gradação de cores. “Mas isso não é um grande problema. Isso pode ser corrigido rapidamente”, disse Guizang, que desejava ser identificado apenas por seu pseudônimo online, ao MIT Technology Review .
“A principal capacidade de um modelo está na forma como ele simula a física e ambientes naturais reais”, e ele diz que Kling se sai bem nesse aspecto…
Veja o artigo completo no site MIT Technology Review