Mozilla Common Voice ayudará a entrenar «Hey Firefox» para la navegación por voz

Trata sobre: Common Voice DeepSpeech Firefox Hey Firefox idiomas metadatos Mozilla TensorFlow

Mozilla Common Voice ayudará a entrenar «Hey Firefox» para la navegación por voz. Mozilla lanzó hace un mes la última versión de Common Voice, su colección de código abierto de datos de voz transcritos. Con estos, empresas emergentes, investigadores y aficionados crearán aplicaciones, servicios y dispositivos habilitados para voz. Common Voice ahora contiene más de 7.226 horas en total de datos de voz. Estos son de 54 idiomas distintos, frente a las 1.400 horas en 18 idiomas que había en febrero de 2019.

Common Voice consta no solo de fragmentos de voz, sino también de metadatos aportados voluntariamente que son útiles para entrenar motores de voz. Algunos de estos datos son de edad, sexo y acentos de los hablantes. Está diseñado para integrarse con DeepSpeech, un conjunto de motores de conversión de voz a texto, de texto a voz de código abierto y modelos entrenados mantenidos por el Grupo de Aprendizaje Automático de Mozilla.

La recopilación de los más de 5.5 millones de clips en Common Voice requirió mucho trabajo de campo. Esto fue principalmente porque las indicaciones del sitio web de Common Voice tuvieron que traducirse a cada idioma. Aún así, hasta el momento, los colaboradores del proyecto han confirmado la validez de 5.591 de las 7.226 horas.

Según Mozilla, cinco idiomas en Common Voice (inglés, alemán, francés, italiano y español) ahora tienen más de 5.000 hablantes únicos, mientras que siete idiomas (inglés, alemán, francés, kabyle, catalán, español y kinyarwandan) tienen más de 500 horas registradas.

Mozilla Common Voice ayudará a entrenar «Hey Firefox» para la navegación por voz

También se vio el lanzamiento del primer segmento de destino de conjunto de datos de Mozilla. Este tiene como objetivo recopilar datos de voz para propósitos y casos de uso específicos. Este segmento incluye los dígitos de «cero» al «nueve», así como las palabras «sí, no, hey y Firefox», habladas por 11.000 personas durante 120 horas en conjunto en 18 idiomas. Anteriormente, la líder de productos de Common Voice, Megan Branson, dijo que se usaría en parte para las pruebas de palabras de activación «Hey Firefox».

«Los datos de este segmento ayudarán a Mozilla a comparar la precisión de nuestro motor de reconocimiento de voz a código abierto, DeppSpeech, en varios idiomas para una tarea similar. También permitirán comentarios más detallados sobre cómo continuar mejorando el conjunto de datos», escribía Branson en una publicación del blog. «Con contribuciones de todo el mundo, nos está ayudando a cumplir con nuestro objetivo de crear un conjunto de datos de voz que esté disponible públicamente para cualquier persona y represente el mundo en el que vivimos.»

Mozilla Common Voice ayudará a entrenar "Hey Firefox" para la navegación por voz

La actualización de Common Voice sigue a una actualización significativa de DeepSpeech. Este incorporó uno de lo modelos de reconocimiento de voz de código abierto más rápidos hasta la fecha. La última versión agregaba soporte para TensorFlow Lite. Esto es una distribución del marco de aprendizaje automático TensorFlow de Google que está optimizado para dispositivos móviles e integrados con restricciones de computación. Reduce el consumo de memoria de DeepSpeech hasta en 22 veces mientras aumenta su velocidad de inicio en más de 500 veces.

Tanto Common Voice como DeepSpeech informan el trabajo en proyectos de Mozilla como Firefox Voice. Se trata de una extensión del navegador que agrega soporte de reconocimiento de voz a Firefox. Actualmente, Firefox Voice puede comprender comandos como «¿Qué tiempo hace?» y «Encuentra la pestaña de Gmail». Sin embargo, el objetivo es facilitar «interacciones significativas» con sitios web que sólo utilicen voz.