top of page

¿Por qué a las IA no les gustan las sorpresas?

Un nuevo benchmark demuestra cómo los sistemas de inteligencia artificial luchan con tareas simples cuando el contexto se sale del guion.

ree

Aunque los modelos de inteligencia artificial avanzan a gran velocidad, siguen tropezando con un obstáculo sorprendentemente humano: las sorpresas. Así lo revela una investigación reciente, reportada por The Decoder, que utilizó más de 1.600 videos de fallas accidentales en YouTube para probar qué tan bien estos sistemas comprenden eventos inesperados.


El experimento, desarrollado por investigadores de la Universidad de Columbia Británica, el Vector Institute for AI y la Universidad Tecnológica de Nanyang, expuso las limitaciones de modelos como GPT-4o y Gemini 1.5 Pro ante situaciones fuera de guion. La herramienta central del estudio fue un nuevo benchmark llamado BlackSwanSuite, diseñado específicamente para evaluar cómo los modelos enfrentan giros imprevistos en videos reales.


En lugar de adaptarse como lo haría una persona al ver que su suposición inicial fue incorrecta, los sistemas de IA tienden a mantener su predicción original incluso después de observar la totalidad del evento. En uno de los ejemplos analizados, un modelo interpreta erróneamente que un hombre con una almohada va a golpear a alguien. Sin embargo, la almohada impacta un árbol de Navidad, y las decoraciones caen sobre una mujer. Aun con toda la evidencia visual, el modelo persiste en su interpretación equivocada.


El conjunto de datos incluyó incidentes cotidianos: accidentes de tráfico, tropiezos infantiles, caídas en piscinas, todos con un elemento común de imprevisibilidad. Los investigadores dividieron cada video en tres partes —inicio, sorpresa y desenlace— y propusieron tres tareas para los modelos: predecir lo que ocurrirá (Forecaster), inferir qué sucedió en medio (Detective) y revaluar su hipótesis tras ver el video completo (Reporter).


Los resultados fueron reveladores. GPT-4o solo acertó el 65% de las veces en la tarea "Detective", mientras que las personas lograron un 90%. En la tarea "Reporter", que requiere ajustar la interpretación con nueva información, la IA obtuvo un 60%, muy por debajo del 92% humano. Otros modelos, como LLaVA-Video y VideoLLaMA 2, también fallaron en reconsiderar sus primeras impresiones.


Según los investigadores, esto ocurre porque los modelos aprenden a partir de patrones repetitivos, no de comprensión contextual. Si un camión de basura deja caer un árbol en lugar de recoger residuos, los sistemas simplemente no tienen un patrón aprendido para ello. Al reemplazar la percepción de video de la IA por descripciones humanas detalladas, el rendimiento de algunos modelos mejoró hasta en un 10%, lo que evidencia que aún dependen de la interpretación humana para comprender lo que “ven”.


Este tipo de sesgo cognitivo computacional tiene implicaciones preocupantes para aplicaciones críticas, como vehículos autónomos o robots de asistencia, donde la habilidad para reaccionar ante lo inesperado puede ser decisiva.


El equipo liberó BlackSwanSuite en plataformas abiertas como Github y Hugging Face, invitando a la comunidad tecnológica a usarlo como herramienta de diagnóstico. Mientras la IA siga tropezando con errores grabados por cámaras domésticas, queda claro que todavía no está lista para navegar la complejidad del mundo real.




Comentarios


itnow-03.png

© Derechos reservados

Connecta B2B - 2025

Políticas de privacidad

ACERCA DE NOSOTROS

IT NOW es un espacio multiplataforma y un núcleo para conectar negocios que se compone de varios elementos: su sitio web con noticias de TI relevantes en la región, un newsletter semanal, su multiplataforma de redes sociales, por último, sus eventos enfocados en las verticales de TI y en donde destaca el aclamado Tech Day, la gira de actualización tecnológica más importante de la región.

24 / 7 Actualizaciones en nuestras Redes Sociales
  • Facebook
  • Instagram
  • LinkedIn
  • YouTube
  • X
  • RSS
bottom of page