Você está interessado neles OFERTAS? Economize com nossos cupons em WhatsApp o TELEGRAMA!

Microsoft VALL-E imitará nossa voz após apenas 3 segundos de fala

Janeiro 11 2023

Em apenas 3 segundos, uma IA que nunca ouviu você falar pode imitar sua voz perfeitamente. Esta é a mais recente conquista da inteligência artificial da Microsoft - o modelo VALL-E text-to-speech, que pode copiar a voz de qualquer pessoa à vontade com apenas 3 segundos de fala.

Microsoft VALL-E imitará nossa voz após apenas 3 segundos de fala

Originou-se de DALL E, mas é especializado no campo de áudio, e o efeito text-to-speech tornou-se popular depois que foi lançado online.

Alguns usuários disseram que se VALL·E e ChatGPT forem combinados, o resultado será incrível. Para outros, parece que não está longe o dia em que será possível fazer videochamadas com IA. Há até quem brinque que depois que a IA cuidou dos escritores e pintores, os próximos são os dubladores.

Mas como VALL·E imita um som “inédito” em 3 segundos?

O VALL-E analisa o áudio com modelos de linguagem. Ele sintetiza a fala com base em sons “não ouvidos” da IA, ou seja, aprendizado de amostra zero.

A solução tradicional de conversão de texto em fala é basicamente um modo pré-treino junto com um ajuste fino. Se usado em um cenário de amostra zero, resultará em baixa similaridade e naturalidade da fala gerada.

Com base nisso, VALL-E surgiu do nada, propondo uma ideia diferente do modelo vocal tradicional.

Comparado com o modelo tradicional que utiliza o espectro de Mel para extrair traços, o VALL-E assume diretamente a síntese de fala como tarefa do modelo de linguagem, sendo a primeira contínua e a segunda discreta.

Em particular, o processo tradicional de síntese de fala é frequentemente o caminho de “fonema → mel-espectrograma (mel-espectrograma) → forma de onda”.

Mas VALL -E transformou esse processo em “fonema→codificação discreta de áudio→forma de onda”:

Em termos de design do modelo, o VALL-E também é semelhante ao VQVAE. Quantiza o áudio em uma série de tokens discretos. O primeiro quantizador é responsável por capturar o conteúdo de áudio e as características de identidade do locutor, enquanto os segundos quantizadores são responsáveis pelo refinamento do sinal. que soa mais natural:

Em seguida, condicionado pelo texto e pelo prompt de áudio de 3 segundos, ele emite autoregressivamente uma codificação de áudio discreta:

Mas não apenas isso, além da síntese de fala de amostra zero, o VALL-E também suporta edição de voz e criação de conteúdo de voz combinados com GPT-3.

O som ambiente de fundo também pode ser restaurado

A julgar pelos efeitos vocais sintetizados, o VALL-E pode restaurar mais do que apenas o timbre do alto-falante.

Não só o tom é imitado no local, mas também suporta uma variedade de diferentes velocidades de fala. Por exemplo, são duas velocidades de fala diferentes fornecidas pelo VALL-E quando a mesma frase é falada duas vezes, mas a semelhança tonal ainda é alta:

Ao mesmo tempo, o som ambiente de fundo da outra parte também pode ser restaurado com precisão.

Além disso, o VALL-E pode imitar uma variedade de emoções do falante, incluindo vários tipos, como raiva, sonolência, neutralidade, alegria e náusea.

Vale a pena mencionar que o conjunto de dados usado para o treinamento VALL·E não é particularmente grande.

Em comparação com o Whisper da OpenAI, que exigiu 680.000 horas de treinamento de áudio e usou apenas mais de 7.000 alto-falantes e 60.000 horas de treinamento, o VALL-E superou a conversão de texto em fala pré-treinada em termos de similaridade com a conversão de texto em fala do Model YourTTS.

Além disso, o YourTTS ouviu as vozes de 97 dos 108 falantes com antecedência durante o treinamento, mas ainda fica aquém do VALL-E no teste real.

Quanto aos campos em que pode ser aplicado:

Ele pode ser usado não apenas para imitar sua própria voz, como ajudar pessoas com deficiência a concluir uma conversa com outras pessoas, mas também para falar por você quando não quiser. Claro, também pode ser usado para gravação de livros de áudio.

No entanto, o VALL-E ainda não é de código aberto e você pode precisar esperar um pouco mais para experimentá-lo.