¿Los modelos de IA tienen sesgos políticos?

Malka Mekler
25 nov 2025
3 Min. de lectura

Anthropic desarrolló un sistema que compara miles de pares de prompts opuestos para medir imparcialidad, usando modelos como Sonnet 4.5 y Opus 4.1 como evaluadores automáticos.

La discusión sobre cómo evaluar el sesgo político en sistemas de IA vuelve a escena, esta vez con un método técnico que busca medir con mayor precisión la imparcialidad de los modelos. Según Anthropic, el objetivo es que Claude responda a temas políticos con el mismo nivel de profundidad, matiz y rigor sin favorecer posiciones ideológicas específicas. Para lograrlo, la compañía desarrolló un sistema de entrenamiento y una métrica automatizada diseñada para detectar desbalances en la forma en que un modelo analiza o argumenta sobre temas sensibles.

El enfoque parte de un principio técnico, si un modelo produce respuestas más extensas, más elaboradas o más persuasivas para un lado del espectro político, está fallando en su función de asistir sin influenciar. Para detectar ese problema, Anthropic creó un marco automatizado que compara pares de prompts opuestos y evalúa tres dimensiones: nivel de detalle frente a cada postura, capacidad de reconocer contraargumentos y disposición a no rehuir tareas políticamente cargadas. El sistema utiliza miles de pares de preguntas, distribuidos en 150 temas y varios tipos de tareas, argumentación, análisis, narrativa, humor o redacción formal, lo que permite observar patrones que serían imposibles de medir manualmente.

La evaluación se basa en el método Paired Prompts, que confronta al modelo con solicitudes simétricas pero ideológicamente contrarias. El análisis posterior lo realiza otro modelo actuando como evaluador automático; en este caso, Claude Sonnet 4.5. La compañía señala que también probó la consistencia del sistema usando otros modelos como grader, Claude Opus 4.1 y GPT-5, para validar que las puntuaciones no dependieran del evaluador. Anthropic reporta acuerdos superiores al 90% entre evaluadores automáticos, un nivel más alto que el obtenido tradicionalmente con evaluadores humanos.

Los resultados muestran que Claude Sonnet 4.5 y Claude Opus 4.1 se sitúan cerca del rendimiento de modelos como Grok 4 y Gemini 2.5 Pro en la métrica de “even-handedness”. El análisis sugiere diferencias mínimas en ese indicador, pero sí evidencia contrastes más marcados en la capacidad de presentar perspectivas opuestas y en la tasa de rechazos. Sonnet 4.5 mantiene una de las tasas de rechazo más bajas (3%), mientras que Llama 4 alcanza el valor más alto dentro del conjunto probado (9%). Anthropic enfatiza que estas mediciones no pretenden ser definitivas, sino parte de un proceso experimental que busca sumar más dimensiones y mayor representatividad de temas políticos globales.

El entrenamiento de Claude integra además un componente de “caracterización”, que son instrucciones reforzadas para que el modelo evite lenguaje que pueda inclinar al usuario hacia visiones políticas específicas, adopte terminología neutral y represente matices sin intervenir en la formación de opinión. Ese comportamiento se impulsa tanto desde el system prompt, ajustado de forma continua, como desde técnicas de reinforcement learning enfocadas en rasgos de imparcialidad.

Anthropic reconoce limitaciones, el análisis se concentra en discurso político estadounidense, evalúa interacciones de una sola vuelta y depende de métricas que, según la propia compañía, podrían ampliarse o redefinirse. Aun así, la apertura del método, liberado como evaluación de código abierto, busca que otras empresas reproduzcan pruebas, cuestionen los resultados y aporten variaciones que permitan acercarse a un estándar común para medir la neutralidad política de los modelos.

Para una industria donde los sistemas de IA participan cada vez más en conversaciones de alta sensibilidad, disponer de mecanismos reproducibles para medir sesgo podría transformar la forma en que se auditan y comparan los modelos. Esa es, al menos, la apuesta técnica que Anthropic coloca sobre la mesa.

¿Los modelos de IA tienen sesgos políticos?

Anthropic desarrolló un sistema que compara miles de pares de prompts opuestos para medir imparcialidad, usando modelos como Sonnet 4.5 y Opus 4.1 como evaluadores automáticos.

Le puede interesar: Cómo Anthropic documentó una campaña de espionaje ejecutada casi por completo por IA

Entradas relacionadas

Comentarios

24 / 7 Actualizaciones en nuestras Redes Sociales