Publicado originalmente por MIT Technology Review
A Meta construiu modelos de IA que podem reconhecer e produzir fala para mais de 1.000 idiomas – um aumento de dez vezes em relação ao que está disponível atualmente. É um passo significativo para a preservação de idiomas que correm o risco de desaparecer, diz a empresa.
A Meta está lançando seus modelos ao público por meio do serviço de hospedagem de código GitHub. Ele afirma que torná-los de código aberto ajudará os desenvolvedores que trabalham em diferentes idiomas a criar novos aplicativos de fala – como serviços de mensagens que entendem todos ou sistemas de realidade virtual que podem ser usados em qualquer idioma.
Existem cerca de 7.000 idiomas no mundo, mas os modelos de reconhecimento de fala existentes cobrem apenas cerca de 100 deles de forma abrangente. Isso ocorre porque esses tipos de modelos tendem a exigir grandes quantidades de dados de treinamento rotulados, que estão disponíveis apenas para um pequeno número de idiomas, incluindo inglês, espanhol e chinês.
Os pesquisadores da Meta contornaram esse problema treinando novamente um modelo de IA existente desenvolvido pela empresa em 2020, capaz de aprender padrões de fala a partir do áudio sem exigir grandes quantidades de dados rotulados, como transcrições.
Eles o treinaram em dois novos conjuntos de dados: um que contém gravações de áudio da Bíblia do Novo Testamento e seu texto correspondente retirado da Internet em 1.107 idiomas, e outro contendo gravações de áudio não rotuladas do Novo Testamento em 3.809 idiomas. A equipe processou o áudio da fala e os dados de texto para melhorar sua qualidade antes de executar um algoritmo projetado para alinhar as gravações de áudio com o texto que as acompanha. Eles então repetiram esse processo com um segundo algoritmo treinado nos dados recém-alinhados. Com esse método, os pesquisadores conseguiram ensinar o algoritmo a aprender um novo idioma com mais facilidade, mesmo sem o texto que o acompanha.
“Podemos usar o que esse modelo aprendeu para construir rapidamente sistemas de fala com muito, muito poucos dados”, diz Michael Auli, cientista pesquisador da Meta que trabalhou no projeto.
“Para o inglês, temos muitos e muitos conjuntos de dados bons, e temos isso para mais alguns idiomas, mas simplesmente não temos isso para idiomas falados por, digamos, 1.000 pessoas.”..
Veja o artigo completo no site MIT Technology Review