

A Microsoft mostrou uma IA que pode imitar qualquer voz humana. Chama-se VALL-E, assim como o algoritmo DALL-E anterior. Se você souber, este último cria uma imagem com base em um texto.
O VALL-E pode imitar o timbre e a maneira de falar ouvindo a voz de uma pessoa real em apenas três segundos. Embora o som soe um pouco como a voz de um robô, o resultado ainda é impressionante.
A Microsoft o chamou de “modelo de linguagem de codec neural”. O VALL-E foi construído com base no EnCodec (um codec de áudio com técnicas de aprendizado de máquina), desenvolvido pela Meta há um ano, em 2022.
VALL-E IMITA A VOZ DE QUALQUER UM
Outros métodos de conversão de texto em fala levam em conta as formas de onda. Mas VALL-E gera codecs de áudio separados de texto e áudio.
Com efeito, analisa como uma pessoa soa. Em seguida, ele divide essas informações em partes separadas (chamadas de “tokens”) por meio do EnCodec. E, no final, ele usa dados de treinamento para corresponder ao que “sabe” sobre como aquela voz soaria se falasse outras frases fora da amostra de três segundos.
VALL-E foi ensinado usando uma biblioteca especial. Este último contém 60.000 horas de fala em inglês de mais de 7.000 pessoas.
Os desenvolvedores sugerem que o método pode ser usado para aplicativos de conversão de texto em fala de alta qualidade.
Por exemplo, você pode usá-lo para editar gravações de fala em que as palavras humanas podem ser alteradas. Como resultado, você pode criar conteúdo de áudio (como locuções para audiolivros) e muito mais.
Claro, tal tecnologia também pode trazer um certo perigo. Mais cedo ou mais tarde, usuários “caolhos” farão disso uma ferramenta de chantagem.
Digamos que eles possam usar IA para provar que pessoas famosas disseram algo que não disseram. Já houve tais casos com deepfakes em formato de vídeo.