top of page

Hambre de datos: el nuevo talón de Aquiles de la IA

A medida que desarrollan modelos cada vez más poderosos, empresas como OpenAI y Anthropic se enfrentan a un desafío: las fuentes de información en línea podrían resultar insuficientes. Exploran nuevas estrategias para alimentar sus sistemas de inteligencia artificial sin comprometer su rendimiento.



A la vanguardia del desarrollo de inteligencia artificial, compañías como OpenAI, Google y otras avanzan a un ritmo vertiginoso. Sin embargo, su camino se ve paulatinamente obstaculizado por un nuevo reto: es posible que internet ya no contenga suficientes datos de calidad para entrenar las próximas generaciones de estos modelos todopoderosos.


Cada nueva iteración requiere océanos aún más vastos de información para aprender. Una demanda que está tensando al límite el acervo de datos públicos disponibles en línea, justo cuando algunos propietarios de contenidos están empezando a bloquear el acceso a las empresas de IA.


Ejecutivos y investigadores advierten que la necesidad de la industria por texto de alta calidad podría superar la oferta en un plazo de dos años, ralentizando potencialmente el avance de la IA. En busca de fuentes vírgenes, las compañías exploran alternativas y replantean cómo entrenar sus sistemas. OpenAI, creadores de ChatGPT, ha considerado utilizar transcripciones de videos públicos de YouTube para alimentar su próximo modelo GPT-5, según publicó el Wall Street Journal.


Los datos se suman a otros recursos esenciales para la IA que escasean, como los chips requeridos para ejecutar los grandes modelos de lenguaje que impulsan a ChatGPT, Gemini de Google y otros asistentes. También preocupa la falta de centros de datos y la electricidad para alimentarlos.


Estos modelos se construyen con texto extraído de internet: investigaciones científicas, artículos periodísticos y entradas de Wikipedia, entre otros. Ese material se descompone en tokens (palabras y fragmentos) que los modelos utilizan para aprender a formular expresiones similares a las humanas.



En general, mientras más datos procesen, más capaces se vuelven. OpenAI apostó fuerte por este enfoque, convirtiéndose en la empresa de IA más prominente del mundo.


OpenAI no revela los detalles del entrenamiento de su actual modelo de vanguardia GPT-4, que ha sentado un nuevo estándar. Pero Pablo Villalobos, de Epoch, estima que requirió hasta 12 billones de tokens. Un sistema como GPT-5 necesitaría entre 60 y 100 billones de tokens si se mantiene la trayectoria actual, calculan Villalobos y otros investigadores, según publicó el Wall Street Journal.


Cosechar todos los datos de calidad disponibles podría aún dejar un déficit de 10 a 20 billones de tokens o más, advierte Villalobos. Y no está claro cómo suplir esa brecha.

Hace dos años, Villalobos y colegas estimaron 50% de probabilidades de que la demanda supere la oferta de datos de calidad para mediados de 2024 y 90% para 2026. Ahora son algo más optimistas y planean ajustar su pronóstico a 2028.


La mayor parte de la información en línea es inservible porque contiene errores o es redundante. Paralelamente, plataformas sociales, medios y otros restringen el acceso a sus datos por temores sobre compensación justa. Y no hay voluntad pública de entregar conversaciones privadas como chats de iMessage para instruir estos modelos.


Otra vía que se prueba es el uso de datos sintéticos generados por IA como material de entrenamiento, un enfoque que muchos expertos aseguran podría causar fallas catastróficas. "Es un problema de investigación de frontera", afirmó al WSJ Ari Morcos, investigador de IA que trabajó en Meta y la unidad DeepMind de Google antes de fundar DatologyAI el año pasado. Esta compañía, respaldada por pioneros de la IA, desarrolla herramientas para optimizar la selección de datos y abaratar el costoso entrenamiento de modelos. "No existe aún una forma establecida de hacer esto".


Entre las estrategias que explora DatologyAI está el "curriculum learning", alimentar modelos con datos ordenados para forjar conexiones más inteligentes entre conceptos. En un estudio de 2022, sus investigadores calcularon que así se requerirían la mitad de datos para iguales resultados, reduciendo los enormes costos de esta tecnología.


Algunas empresas, incluyendo la socia de OpenAI Microsoft, construyen modelos más pequeños que GPT-4 para tareas específicas.


OpenAI también ha considerado crear un mercado de datos donde pueda atribuir cuánto valor aporta cada fragmento al modelo final y pagar a sus proveedores. Una idea similar se debate en Google, pero aún no hay un sistema viable.


De acuerdo a la información publicada por WSJ, otra alternativa arriesgada es generar datos propios. Alimentar un modelo con texto creado por otra IA equivale a la "endogamia" en ciencias de la computación y suele producir incoherencias o "colapso del modelo", advierten expertos.


En una entrevista reciente, el científico jefe de Anthropic, Jared Kaplan, afirmó que ciertos datos sintéticos pueden ser útiles. Anthropic usó "datos que generamos internamente" para capacitar sus últimas versiones de Claude, mientras OpenAI también explora esta vía.


Mientras avanzan en su carrera para saciar el voraz apetito de datos de sus sistemas inteligentes, las empresas líderes apuestan a que eventualmente hallarán la llave para solucionarlo.


bottom of page