O treinamento de modelos musicais de IA está prestes a ficar muito caro

Publicado originalmente por MIT Technology Review

A música de IA de repente está em um momento decisivo. Em 24 de junho, Suno e Udio, duas principais startups musicais de IA que fabricam ferramentas para gerar músicas completas a partir de um prompt em segundos, foram processadas por grandes gravadoras. Sony Music, Warner Music Group e Universal Music Group afirmam que as empresas usaram músicas protegidas por direitos autorais em seus dados de treinamento “em uma escala quase inimaginável”, permitindo que os modelos de IA gerassem músicas que “imitassem as qualidades de gravações sonoras humanas genuínas”.

Dois dias depois, o Financial Times informou que o YouTube está adotando uma abordagem comparativamente honesta. Em vez de treinar modelos musicais de IA em conjuntos de dados secretos, a empresa está oferecendo quantias fixas não especificadas às principais gravadoras em troca de licenças para usar seus catálogos para treinamento.

Em resposta às ações judiciais, tanto a Suno como a Udio divulgaram declarações mencionando esforços para garantir que os seus modelos não imitam obras protegidas por direitos de autor, mas nenhuma das empresas especificou se os seus conjuntos de formação os contêm. A Udio disse que seu modelo “ouviu” e aprendeu com uma grande coleção de músicas gravadas”, e duas semanas antes dos processos, o CEO da Suno, Mikey Shulman, me disse que seu conjunto de treinamento é “padrão da indústria e legal”, mas a receita exata é proprietário.

Embora o terreno aqui esteja mudando rapidamente, nenhum desses movimentos deveria ser tão surpreendente: batalhas litigiosas entre dados de treinamento tornaram-se algo como um rito de passagem para empresas de IA generativa. A tendência levou muitas dessas empresas, incluindo a OpenAI, a pagar por acordos de licenciamento enquanto os casos se desenrolavam.

No entanto, os riscos são maiores para a música de IA do que para geradores de imagens ou chatbots. As empresas de IA generativa que trabalham com texto ou fotos têm opções para contornar processos judiciais; por exemplo, eles podem reunir corpus de código aberto para treinar modelos. Em contraste, a música de domínio público é muito mais limitada (e não é exatamente o que a maioria das pessoas quer ouvir).

Outras empresas de IA também podem cortar acordos de licenciamento com mais facilidade com editores e criadores interessados, que são muitos; mas os direitos sobre a música estão muito mais concentrados do que os sobre filmes, imagens ou texto, dizem especialistas da indústria. São em grande parte geridos pelas três maiores editoras discográficas – os novos demandantes – cujas editoras possuem colectivamente mais de 10 milhões de canções e grande parte da música que definiu o século passado. (O processo nomeia uma longa lista de artistas que as gravadoras alegam terem sido incluídos indevidamente nos dados de treinamento, desde o ABBA até os da trilha sonora de Hamilton .)

Além de tudo isso, também é mais difícil criar música que valha a pena ouvir – gerar um poema legível ou uma ilustração aceitável com IA é um desafio técnico, mas infundir em um modelo o gosto necessário para criar a música que gostamos é outro…

Veja o artigo completo no site MIT Technology Review