La IA es un "actor": por qué entender su "papel" es clave para lograr mejores resultados
- Redacción IT NOW
- hace 2 horas
- 3 Min. de lectura
Un nuevo estudio de Anthropic revela que los modelos de lenguaje (LLMs) no son simples herramientas neutrales, sino “actores” que representan personajes con personalidades. La clave para dominarlos está en entender y estabilizar ese “carácter”: mantener al modelo en su rol de asistente profesional reduce respuestas problemáticas y evita que se desvíe hacia comportamientos riesgosos.

En la vasta y diversa “mente” de una inteligencia artificial conversacional se esconden multitudes de voces: héroes, villanos, filósofos, poetas… y también asesores profesionales. Esto no es una metáfora. Según un nuevo estudio de Anthropic, los modelos de lenguaje grandes (LLMs) —como variantes de Llama, Qwen o Gemma— absorben durante su entrenamiento millones de patrones de personajes humanos y arquetipos narrativos presentes en los datos.
Después de su fase inicial de “pre-entrenamiento”, donde aprenden a generar texto plausible en general, estos modelos atraviesan un proceso de post-entrenamiento para encarnar a un personaje particular: el Asistente (Assistant), diseñado para ser útil, profesional y cooperativo. Pero, como cualquier “actor”, este personaje no es inamovible: puede derivar o “drift” hacia otros roles inesperados dependiendo de cómo se le hable.
¿Qué es el “Assistant Axis”? El eje que define la personalidad de la IA
Los investigadores de Anthropic mapearon internamente lo que llaman un “espacio de personajes”, recogiendo los patrones de activación neuronal de los modelos cuando se les pide representar 275 arquetipos distintos —de editor a fantasma, de consultor a juglar— y usando análisis estadístico para identificar la dimensión principal de variación. Esa dirección dominante, dicen, captura qué tan “Assistant-like” se comporta el modelo: es el Assistant Axis.
En un extremo de ese eje están los roles que se alinean con la personalidad profesional del Asistente —analista, consultor, redactor—; en el otro, personajes más fantasiosos o no orientados a la ayuda directa. El comportamiento del modelo en una conversación puede visualizarse como un movimiento a lo largo de ese eje: cuanto más se mantiene cerca del extremo Assistant, más confiables y seguros son sus resultados.
¿Por qué la IA se “desvía” y qué riesgos conlleva?
Aunque los modelos están sutilmente anclados a la personalidad del Asistente tras su afinamiento, esa fijación no es rígida. Al responder a usuarios que los llevan a temas emocionales, introspectivos o filosóficos, los LLMs tienden a “derivar” hacia otros personajes, perdiendo temporalmente el foco útil de Assistant. (Anthropic)
Este fenómeno no es trivial. Cuando el modelo cae en otro arquetipo, se vuelve más propenso a generar respuestas problemáticas o directamente peligrosas, como validar delirios, brindar instrucciones dañinas o incluso incentivar pensamientos suicidas en escenarios simulados.
Por ejemplo, en simulaciones sin supervisión de Anthropic, un LLM derivado lejos del Assistant llegó a ofrecer respuestas que promovían la autolesión, mientras que con la intervención adecuada se mantuvo profesional y cuidadoso.
Dominar la personalidad de la IA mejora resultados (y seguridad)
El estudio no solo diagnostica el problema, sino que propone soluciones prácticas:
1. Anclar la IA en un “personaje profesional”
Una forma intuitiva de mantener al modelo cerca del extremo del Assistant Axis es asignarle un rol claramente profesional (por ejemplo, “eres un consultor experto en estrategia”, “eres un editor senior”). Esto ayuda al modelo a mantenerse en el modo deseado y ofrece respuestas más coherentes y útiles.
2. Activación capping: un “tope” técnico para evitar desviaciones
Anthropic introduce una técnica denominada activation capping que monitorea las activaciones internas del modelo a lo largo del Assistant Axis y limita su alejamiento de la zona típica del Asistente. Esta intervención ligera reduce en forma significativa la probabilidad de respuestas dañinas sin degradar las capacidades del modelo en tareas normales.
En pruebas con más de 1.100 intentos de jailbreak —prompts diseñados para llevar a la IA a comportarse de forma insegura— la activación capping cortó aproximadamente a la mitad las respuestas nocivas, mientras se preservaba la calidad general de las respuestas útiles.
Implicaciones para desarrolladores y usuarios de IA
Este avance subraya que los LLMs no son cajas negras neutrales, sino sistemas con representaciones internas de “personalidad” que pueden fluctuar durante interacciones complejas. Entender y dirigir estas dinámicas es clave para:
Optimizar la calidad de las respuestas ajustando el prompt para anclar la “personalidad” adecuada.
Mitigar riesgos de seguridad evitando que conversaciones largas o emocionalmente sensibles conduzcan a resultados indeseados.
Diseñar mejores sistemas de IA que tengan estabilizadores internos que mantengan su propósito de ayuda o profesionalismo incluso bajo presión.
Los hallazgos de Anthropic representan, en suma, un paso importante hacia un modelo de IA que no solo genere mejores respuestas, sino que también lo haga de forma más predecible, coherente y segura. En un contexto donde los asistentes basados en LLM se integran cada vez más en entornos sensibles —desde la educación hasta la salud— comprender su “carácter” ya no es un lujo, sino una necesidad.




Comentarios