¿IA sin Google? Alibaba entrena modelos que aprenden a buscar por sí mismos
- Malka Mekler
- hace 6 horas
- 2 Min. de lectura
Con ZeroSearch, la empresa capacita sus modelos de inteligencia artificial usando solo simulaciones internas, eliminando la necesidad de cientos de miles de llamadas API.

Alibaba dio un paso disruptivo en el entrenamiento de modelos de lenguaje con el desarrollo de ZeroSearch, una técnica que permite a la inteligencia artificial aprender a buscar información sin necesidad de conectarse a motores de búsqueda reales. Según reportó VentureBeat, esta innovación representa un giro radical en la forma en que los sistemas de IA adquieren habilidades de recuperación de información, reduciendo en un 88% los costos asociados a este proceso.
La clave de esta herramienta está en la simulación. En lugar de utilizar APIs de motores como Google, que implican miles de llamadas costosas e impredecibles, Alibaba entrena sus modelos mediante un enfoque de aprendizaje por refuerzo basado en simulaciones internas. Primero, se aplica una ligera etapa de ajuste supervisado que convierte al modelo en un módulo de recuperación capaz de generar tanto documentos relevantes como irrelevantes ante una consulta. Luego, durante el entrenamiento, se implementa una estrategia de rollout gradual que degrada intencionalmente la calidad de los documentos generados, lo que permite al modelo refinar su criterio de búsqueda.
El fundamento técnico detrás del método, como explican los investigadores en su publicación en arXiv, es que los LLM ya poseen un vasto conocimiento del mundo adquirido durante su preentrenamiento. Esto les permite simular respuestas de estilo similar a las que produciría un motor de búsqueda, sin depender de uno. “La principal diferencia entre un motor de búsqueda real y una simulación basada en LLM radica en el estilo textual del contenido devuelto”, aclaran.
Los resultados son contundentes. En pruebas realizadas sobre siete conjuntos de datos de preguntas y respuestas, ZeroSearch igualó, e incluso superó, el desempeño de modelos entrenados con motores de búsqueda reales. Un módulo de recuperación de 7.000 millones de parámetros alcanzó resultados comparables a Google, y uno de 14 mil millones lo superó. La diferencia en costos es aún más reveladora: mientras que 64.000 consultas vía Google costarían casi US$600, el mismo entrenamiento con ZeroSearch apenas supera los US$70 usando GPUs A100.
Este avance no solo abre la puerta a entrenamientos más económicos, sino también más controlados y escalables. Para desarrolladores y empresas que trabajan con presupuestos limitados, especialmente fuera del núcleo de las grandes tecnológicas, ZeroSearch podría democratizar el acceso a IA avanzada. Además, al eliminar la dependencia de servicios externos, se refuerza la autonomía del proceso de desarrollo.
Compatible con modelos como Qwen-2.5 y LLaMA-3.2, ZeroSearch está disponible públicamente con su código, conjuntos de datos y modelos preentrenados en plataformas como GitHub y Hugging Face. Esta apertura técnica refuerza su potencial como estándar emergente para entrenar IA sin intermediarios.
Comments