Cada dos semanas, se pierde un idioma en alguna parte del mundo. Es el caso de los mundas, una comunidad de cerca de un millón de personas repartidas por los estados indios de Jharkhand, Orissa y Bengala Occidental. Ahora, gracias a la tecnología, Microsoft ayuda a sobrevivir a las lenguas menos habladas, y que puedan crecer en el mundo digital.
Lengua franca, lengua universal
Desde el principio de Internet, el idioma más usado siempre ha sido el inglés. Está presente en prácticamente cualquier entorno digital, ya sea educativo, de entretenimiento, científico, etc. Como lengua franca de nuestro tiempo, el hecho no sorprende, pero ha tenido consecuencias negativas para otras lenguas.
Con la mejora del acceso y la demanda de contenidos en idiomas nativos, otras lenguas se han abierto paso. Por número de hablantes, el chino y el español han encontrado su hueco por méritos propios y pueden competir de tú a tú con el inglés en cuanto a compatibilidad tecnológica. Sin embargo, estas representan únicamente ocho de las casi 6.000 lenguas que hay en el mundo.
Esto significa que la mayoría de idiomas no tienen suficiente presencia en Internet; si lo traducimos a números, cerca de 1.200 millones de personas no pueden utilizar su idioma para navegar por el mundo digital.
Microsoft ayuda a sobrevivir a las lenguas menos habladas
El testimonio de la Dra Meenakshi Munda, miembro de la comunidad Munda y profesora de la Universidad de Ranchi de la India, ayuda a comprender por qué Microsoft se ha aventurado en ayudar a sobrevivir a las lenguas menos habladas en el mundo digital:
«Aprendí mundarí muy tarde porque mis padres vivían, por trabajo, en otro estado , así que no hablábamos la lengua en casa».
«Entiendo lo importante que es la identidad para una comunidad y las generaciones más jóvenes están perdiendo su identidad porque no conocen su lengua».
Dra Meenakshi, profesora de la Universidad de Ranchi, India.
La comunidad Munda está preocupada por la longevidad de su idioma, ya que en las escuelas sólo se enseñan algunos más dominantes como bengalí, hindi o el odiya. Aunque existe un alfabeto escrito para el mundarí, su presencia en Internet es casi nula, lo que ofrece aún menos incentivos para que la gente aprenda la lengua.
El proyecto ELLORA
En el marco del proyecto ELLORA (Enabling Low Resource Languages), la creación de recursos digitales tiene una doble finalidad: preservar una lengua para la posteridad y garantizar que sus hablantes puedan interactuar con ella en el mundo digital.
Dicho proyecto se puso en marcha en 2015; el primer paso fue determinar qué recursos estaban ya disponibles, como material impreso o literatura, y el alcance de la presencia digital. En un documento de 2020, los expertos crearon una clasificación en seis niveles, en la que el nivel superior representaba las lenguas ricas en recursos (como el inglés y el español), y los niveles inferiores reflejaban aquellas con pocos o ningún recurso.
Ante esta situación, los investigadores de Microsoft Research (MSR) en India han trabajado para crear ecosistemas digitales para diferentes lenguas -como el mundarí- que no tienen suficiente presencia en el mundo digital.
«El objetivo de mi trabajo es que ninguna persona en este mundo esté excluida del uso de cualquier tecnología por hablar un idioma diferente».
Kalika Bali, de Microsoft Research India.
Bali, que es experta en procesamiento del lenguaje natural, el subcampo de lingüística e inteligencia artificial (I.A), se centra en entrenar sistemas informáticos para comprender idiomas hablados y escritos.
Así, ella y su equipo trabajan con comunidades locales y hablantes nativos para crear los conjuntos de datos que sirven de base para construir la tecnología de I.A. Al involucrar a la comunidad en este proceso, crean un conjunto de información preciso y culturalmente relevante.
Su trabajo consiste en recopilar los recursos necesarios para estas lenguas y crear modelos lingüísticos que satisfagan las necesidades digitales de sus hablantes.
Lengua y tecnología unidas
La conexión entre lengua y tecnología es clave porque, con el tiempo, podría permitir sistemas sofisticados de traducción (potenciados con I.A) en todas las lenguas y usarse en sitios web, plataformas de streaming, etc.
Además del trabajo que están haciendo con la comunidad Munda, el Proyecto ELLORA está llevando a cabo otras iniciativas, como la creación de un centro de noticias en lenguas minoritarias, servicios de traducción automática, diccionarios digitales y métodos de conservación.
«Queremos reducir el tiempo que podría llevar a estas lenguas disponer de datos suficientes para aprovechar la tecnología, si se hiciera de otro modo«.
«Si la IA puede hacer cosas maravillosas para los hablantes del inglés, debería poder hacer lo mismo para cualquier otro ser humano que no hable ese idioma».
Palabras de Bali, de Microsoft Research India.