Publicado originalmente por MIT Technology Review
Uma nova onda de startups está usando aprendizado profundo para criar dubladores sintéticos para assistentes digitais, personagens de videogame e vídeos corporativos.
Cada um é baseado em um dublador real, cuja aparência (com consentimento) foi preservada usando IA. As empresas agora podem licenciar essas vozes para dizer o que precisam. Eles simplesmente alimentam algum texto no mecanismo de voz, e o resultado é um clipe de áudio nítido com uma performance de som natural.
As vozes AI também são baratas, escaláveis e fáceis de trabalhar. Ao contrário de uma gravação de um dublador humano, as vozes sintéticas também podem atualizar seu roteiro em tempo real, abrindo novas oportunidades para personalizar a publicidade.
Mas o surgimento de vozes falsas hiper-realistas não é isento de consequências. Os dubladores humanos, em particular, ficaram se perguntando o que isso significa para seus meios de subsistência.
As vozes sintéticas já existem há algum tempo. Mas os antigos, incluindo as vozes da Siri e Alexa originais , simplesmente juntavam palavras e sons para obter um efeito robótico desajeitado. Fazê-los soar mais naturais era uma tarefa manual trabalhosa.
O aprendizado profundo mudou isso. Os desenvolvedores de voz não precisavam mais ditar o ritmo exato, a pronúncia ou a entonação da fala gerada. Em vez disso, eles poderiam inserir algumas horas de áudio em um algoritmo e fazer com que o algoritmo aprendesse esses padrões por conta própria…
Veja o artigo completo no site MIT Technology Review