top of page

Cómo la revolución de la IA está poniendo en peligro a centenares de idiomas

A medida que la inteligencia artificial generativa se vuelve central en la vida diaria, el predominio del inglés podría tener consecuencias inesperadas, relegando a miles de lenguas al olvido digital. Expertos advierten sobre los desafíos y las oportunidades para preservar la diversidad lingüística en la era digital.


En la era de la inteligencia artificial (IA), el inglés se ha erigido como la lengua principal de internet, un hecho que podría acarrear consecuencias inesperadas a medida que la IA generativa se convierte en un elemento central de la vida cotidiana.


El surgimiento de internet, junto con décadas de hegemonía estadounidense, convirtió al inglés en una lengua común para los negocios, la política, la ciencia y el entretenimiento. Más de la mitad de todos los sitios web están en inglés, sin embargo, más del 80 por ciento de las personas en el mundo no hablan el idioma. Incluso aspectos básicos de la vida digital, como buscar en Google, hablar con Siri, depender del autocorrector o simplemente escribir en un teléfono inteligente, han estado cerrados para gran parte del mundo. Y ahora, el auge de la IA generativa, a pesar de las promesas de tender puentes entre idiomas y culturas, podría simplemente afianzar aún más el dominio del inglés en la vida en línea y fuera de ella.


Un artículo de The Atlantic detalla cómo la escala es fundamental para esta tecnología. En comparación con generaciones anteriores, la IA actual requiere órdenes de magnitud más de potencia informática y datos de entrenamiento, todo para crear el lenguaje humano que ha deslumbrado a tantos usuarios de ChatGPT y otros programas. Gran parte de la información que la IA generativa "aprende" se extrae simplemente de la web abierta. Por esa razón, la preponderancia de texto en inglés en línea podría significar que la IA generativa funcione mejor en inglés, afianzando un sesgo cultural en una tecnología que se ha comercializado por su potencial para "beneficiar a la humanidad en su conjunto".


Algunos otros idiomas también están bien posicionados para la era de la IA generativa, pero solo unos pocos: casi el 90 por ciento de los sitios web están escritos en solo 10 idiomas (inglés, ruso, español, alemán, francés, japonés, turco, portugués, italiano y persa).


Unos 7.000 idiomas se hablan en el mundo. Google Translate admite 133 de ellos. Los chatbots de OpenAI, Google y Anthropic siguen siendo más limitados. "Hay un abismo pronunciado en el rendimiento", dijo Sara Hooker, científica informática y jefa de Cohere for AI, un brazo de investigación sin fines de lucro de la empresa tecnológica Cohere. "La mayoría de los modelos de lenguaje de mayor rendimiento sirven a ocho o diez idiomas. Después de eso, hay casi un vacío".


La construcción de modelos de IA para idiomas de recursos bajos es laboriosa y lleva mucho tiempo. Cohere lanzó recientemente un modelo de lenguaje grande que tiene un rendimiento de vanguardia para 101 idiomas, de los cuales más de la mitad son de recursos bajos. Eso deja alrededor de 6.900 idiomas por abordar, y este esfuerzo solo requirió 3.000 personas trabajando en 119 países. Para crear datos de entrenamiento, los investigadores trabajan frecuentemente con hablantes nativos que responden preguntas, transcriben grabaciones o anotan texto existente, lo que puede ser lento y costoso.


La hegemonía del inglés en internet está creando un sesgo cultural en la Inteligencia Artificial (IA) generativa, una tecnología que se ha promocionado por su potencial para beneficiar a la humanidad en su conjunto. La gran mayoría de los datos en línea que alimentan estos modelos de IA están en inglés y solo unas pocas lenguas más, como el ruso, español o alemán, tienen una presencia significativa. Este desequilibrio lingüístico amenaza con dejar atrás a miles de idiomas indígenas y de bajo recursos.


La clave de la IA generativa actual es la escala masiva: requiere órdenes de magnitud más potencia de cómputo y datos de entrenamiento que las generaciones anteriores. Cuando la mayor parte de esa información procede de la web abierta, predominantemente en inglés, los modelos de IA funcionan mejor en este idioma, consolidando un sesgo cultural inherente.


Lenguas como el fon, hablado por millones en Benín y países vecinos, a menudo son catalogadas como "ficticias" por estos programas entrenados principalmente con textos en inglés. Incluso herramientas básicas como los traductores automáticos suelen pasar por alto miles de idiomas indígenas y de bajo recursos. A medida que los asistentes de IA generativa se vuelven la puerta de entrada a internet, miles de millones de personas podrían quedar peor que hoy.


Los expertos advierten que, si no se toman medidas, muchos idiomas podrían extinguirse en cuestión de años. Cuando una lengua no tiene presencia tecnológica ni recursos digitales, se percibe como carente de valor. Las nuevas generaciones tendrán menos incentivos para aprenderla.


Sin embargo, algunos avances prometedores sugieren que la IA podría ayudar a preservar estas lenguas. Ciertos modelos son capaces de identificar aspectos fundamentales del lenguaje que trascienden idiomas específicos. Entrenados en lenguas con más recursos disponibles, luego pueden generalizar su conocimiento a idiomas de bajo recursos. Pero construir estos modelos requiere un arduo trabajo de recopilación de datos y recursos, con la colaboración de hablantes nativos.


La solución no solo es técnica, sino también social: escuchar las necesidades de las comunidades lingüísticas e involucrarlas en el desarrollo de la tecnología.


A medida que la IA generativa se extiende, la humanidad enfrenta un reto: integrar la diversidad lingüística en esta revolución tecnológica o permitir que miles de idiomas queden sepultados por la avalancha de un internet mayoritariamente anglófono.





bottom of page