Publicado originalmente por MIT Technology Review
Um novo sistema de IA pode criar fala e música com som natural depois de receber alguns segundos de áudio.
O AudioLM, desenvolvido por pesquisadores do Google, gera áudio que se encaixa no estilo do prompt, incluindo sons complexos como música de piano ou pessoas falando, de uma forma quase indistinguível da gravação original. A técnica promete acelerar o processo de treinamento da IA para gerar áudio e, eventualmente, pode ser usada para gerar automaticamente músicas para acompanhar os vídeos.
O áudio gerado por IA é comum: vozes em assistentes domésticos como Alexa usam processamento de linguagem natural. Sistemas de música AI como o Jukebox da OpenAI já geraram resultados impressionantes, mas a maioria das técnicas existentes precisa de pessoas para preparar transcrições e rotular dados de treinamento baseados em texto, o que leva muito tempo e trabalho humano. O Jukebox, por exemplo, usa dados baseados em texto para gerar letras de músicas.
O AudioLM, descrito em um artigo não revisado por pares no mês passado, é diferente: não requer transcrição ou rotulagem. Em vez disso, os bancos de dados de som são inseridos no programa e o aprendizado de máquina é usado para compactar os arquivos de áudio em trechos de som, chamados de “tokens”, sem perder muita informação. Esses dados de treinamento tokenizados são alimentados em um modelo de aprendizado de máquina que usa processamento de linguagem natural para aprender os padrões do som.
Para gerar o áudio, alguns segundos de som são inseridos no AudioLM, que então prevê o que vem a seguir. O processo é semelhante à maneira como os modelos de linguagem como o GPT-3 prevêem quais frases e palavras normalmente se seguem.
Os clipes de áudio lançados pela equipe soam bastante naturais. Em particular, a música de piano gerada usando AudioLM soa mais fluida do que a música de piano gerada usando técnicas de IA existentes, que tendem a soar caóticas.
Roger Dannenberg, que pesquisa música gerada por computador na Carnegie Mellon University, diz que o AudioLM já tem uma qualidade de som muito melhor do que os programas anteriores de geração de música. Em particular, diz ele, o AudioLM é surpreendentemente bom em recriar alguns dos padrões de repetição inerentes à música feita pelo homem. Para gerar música de piano realista, o AudioLM precisa capturar muitas das vibrações sutis contidas em cada nota quando as teclas do piano são tocadas. A música também tem que sustentar seus ritmos e harmonias por um período de tempo.
“Isso é realmente impressionante, em parte porque indica que eles estão aprendendo alguns tipos de estrutura em vários níveis”, diz Dannenberg.
AudioLM não se limita apenas à música. Por ter sido treinado em uma biblioteca de gravações de sentenças de humanos falando, o sistema também pode gerar fala que continua no sotaque e na cadência do falante original – embora neste ponto essas sentenças ainda possam parecer non sequiturs que não fazem qualquer diferença. senso. O AudioLM é treinado para aprender quais tipos de trechos de som ocorrem frequentemente juntos e usa o processo inverso para produzir frases. Também tem a vantagem de poder aprender as pausas e exclamações inerentes às línguas faladas, mas que não são facilmente traduzidas em texto…
Veja o artigo completo no site MIT Technology Review