VALL-E 2 de Microsoft alcanza ya un nivel humano

Trata sobre: IA Microsoft Transformación digital

Microsoft ha presentado VALL-E 2, un nuevo modelo que lleva la síntesis de voz similar a la humana a otro nivel. No se trata sólo de una mejora, sino de un gran paso adelante para conseguir que las voces generadas por ordenador suenen más naturales y con mayor calidad.

La creación de esta avanzada tecnología supone un avance significativo con respecto a versiones anteriores como la de VALL-E, que ya estaban a la altura de los patrones del habla humana, pero aún carecían de algunos elementos cruciales como el control de la entonación o evitar la monótona repetición de tonos.

El problema de la repetición de tonos y más

El último desarrollo de Microsoft y VALL-E supera estas limitaciones, introduciendo aspectos novedosos como el Repetition Aware Sampling y el Grouped Code Modeling, todos ellos destinados a mejorar la estabilidad y la eficacia durante el proceso de generación de palabras habladas mediante técnicas de aprendizaje automático.

Pero, ¿qué significa todo esto?

Uno de los problemas de muestreo es la repetición de tokens. A veces, el modelo puede producir secuencias repetitivas que pueden causar problemas de estabilidad y bucles infinitos, como se ha mencionado anteriormente. Este método, conocido como Repetition Aware Sampling, tiene en cuenta el historial de descodificación para obtener resultados más estables y fiables. ¿Alguna vez has escuchado una síntesis de voz que no suena del todo bien? Esta función soluciona esto.

El siguiente es el Grouped Code Modeling, un método centrado en la eficacia. Al agrupar los códigos de los códecs, se puede acortar enormemente la longitud de la secuencia. Este método acelera la inferencia y resuelve los problemas relacionados con el modelado de secuencias largas. Piensa en una situación en la que tengas que sintetizar rápidamente un discurso largo; esta función lo hace posible sin perder calidad.

VALL-E 2 hablará como un humano

No se trata de meros términos técnicos, sino que permiten a VALL-E 2 producir un habla extremadamente natural, incluso para frases complejas. La elegancia del modelo reside en su sencillez: sólo necesita un conjunto simple de pares de habla-traducción para entrenarse. Esto facilita enormemente el proceso de recopilación y tratamiento de datos.

Según el documento técnico de VALL-E 2, en los conjuntos de datos LibriSpeech y VCTK, el nuevo LLM mostró mejores resultados en cuanto a robustez del habla, naturalidad y similitud con el hablante. Es el primer modelo que alcanza la igualdad humana en estas pruebas. La nueva versión es capaz de producir un habla de muy buena calidad que maneja bien frases complicadas y repetidas.

Aplicaciones prácticas esperanzadoras

VALL-E 2 es muy prometedor para ayudar a las personas que tienen dificultades para hablar, pero sus posibles usos no se limitan sólo a estos ámbitos. Pensemos en la posibilidad de dar voz a alguien que tiene dificultades para hablar debido a enfermedades como la afasia o la esclerosis lateral amiotrófica.

Sin embargo, no debemos pasar por alto los peligros de un mal uso, como la suplantación de la voz. Para los usos prácticos de esta tecnología es muy importante contar con normas sobre aprobación de locutores y reconocimiento de si un discurso es real o está hecho por ordenador.