La irrupción china que presiona a Silicon Valley: DeepSeek libera modelos que igualan a GPT-5
- Malka Mekler
- hace 21 minutos
- 3 Min. de lectura
Con una atención dispersa que optimiza cómputo y un rendimiento competitivo en benchmarks globales, V3.2 y V3.2-Speciale llegan bajo licencia MIT y con pesos completos abiertos.

La carrera por los modelos de inteligencia artificial de siguiente generación acaba de sumar un nuevo capítulo con el lanzamiento de dos sistemas avanzados de DeepSeek, desarrollos que apuntan directamente al nivel de los modelos más potentes del mercado. La compañía china presentó V3.2 y su variante V3.2-Speciale, ambos diseñados para tareas de razonamiento y resolución compleja con un desempeño que, de acuerdo con sus propios resultados técnicos, rivaliza con modelos como GPT-5 y Gemini-3.0-Pro.
La empresa sostiene este salto tecnológico sobre una arquitectura propia llamada DeepSeek Sparse Attention (DSA), un mecanismo que reorganiza cómo los modelos procesan el contexto extenso y reduce de manera notable el costo computacional. En lugar de analizar de forma exhaustiva cada fragmento del texto de entrada, su “lightning indexer” filtra dinámicamente solo la información más relevante para cada consulta. El reporte técnico explica que esta optimización permite cortar aproximadamente a la mitad los costos de inferencia en secuencias largas sin degradar la calidad de respuesta, algo especialmente significativo en modelos con ventanas de 128.000 tokens. En pruebas internas, procesar un volumen equivalente a un libro de 300 páginas cuesta ahora un 70% menos que en la versión anterior.
El modelo V3.2-Speciale fue sometido a pruebas consideradas de referencia para medir capacidades avanzadas en matemáticas, programación y razonamiento. Los resultados lo posicionan en métricas comparables o superiores a los modelos estadounidenses más recientes, desde puntajes en la AIME 2025 hasta desempeños por encima del 99% en el Harvard-MIT Mathematics Tournament, además de medallas de oro en competencias globales como la International Mathematical Olympiad o la International Olympiad in Informatics. Todo esto, según el informe, sin acceso a internet ni herramientas externas durante las pruebas y respetando tiempos y limitaciones oficiales. Su modelo estándar, V3.2, muestra un rendimiento ligeramente menor pero con una eficiencia computacional significativamente más alta.
Más allá de su capacidad de razonamiento, la compañía incorporó una mejora que aborda una limitación persistente en los modelos actuales, la continuidad del pensamiento mientras se utilizan herramientas externas. DeepSeek entrenó al sistema para mantener el hilo lógico aun cuando ejecuta código, realiza búsquedas o manipula archivos, evitando el reinicio del proceso de razonamiento que afecta a arquitecturas previas. Para ello construyó un entorno de datos sintéticos de gran amplitud, con más de 1.800 escenarios y 85.000 instrucciones complejas, que mezclan planificación, depuración de software en múltiples lenguajes y tareas que requieren múltiples pasos y verificaciones. El entrenamiento se realizó con herramientas reales, APIs de búsqueda, entornos de programación, notebooks, para favorecer la transferencia a situaciones no vistas.
Uno de los elementos que más impacto podría generar en el ecosistema tecnológico es la decisión de liberar ambos modelos bajo licencia MIT, lo que permite su descarga, modificación y despliegue sin restricciones. Al publicar los pesos completos y el código de entrenamiento en plataformas abiertas, DeepSeek facilita que los modelos se adopten en entornos empresariales o de investigación sin depender de proveedores propietarios. Según la documentación disponible, el paquete incluye scripts compatibles con el formato de OpenAI, lo que permite migrar flujos existentes sin cambios profundos.
Sin embargo, la apertura tecnológica no elimina las tensiones regulatorias que rodean al proyecto. Autoridades europeas han cuestionado la transferencia de datos hacia China, mientras que en Estados Unidos se evalúan restricciones para su uso en dispositivos gubernamentales. Aunque la empresa no detalla el hardware exacto utilizado para entrenar esta nueva generación, indica compatibilidad con procesadores fabricados en China y deja entrever que la capacidad de cómputo local ya es suficiente para sostener modelos de esta escala, un punto relevante en plena vigencia de controles de exportación.
El reporte técnico también reconoce limitaciones actuales, como la necesidad de generar más tokens para igualar el nivel de detalle de modelos como Gemini-3.0-Pro o la brecha en volumen de conocimiento generalizado. DeepSeek planea cerrar estas diferencias ampliando el cómputo de preentrenamiento y unificando las capacidades avanzadas de la versión Speciale en el modelo estándar antes de mediados de diciembre.
El lanzamiento muestra, en términos estrictamente tecnológicos, que la frontera de la IA ya no está concentrada únicamente en Silicon Valley. La irrupción de modelos abiertos capaces de igualar benchmarks históricamente dominados por gigantes estadounidenses plantea un escenario de competencia más amplio y con barreras de acceso mucho más bajas. Como escribió Chen Fang, colaborador del proyecto, en X, “la gente pensó que DeepSeek había supuesto un avance único, pero volvimos con mucho más éxito.”, señalando la intención de mantener una presión constante en el avance del sector.
