La persuasión humana puede hacer que una IA haga cosas que no debería
- Redacción IT NOW
- 5 sept
- 2 Min. de lectura
Un estudio reveló que los chatbots de IA pueden ser manipulados con simples técnicas de manipulación psicológica, vulnerando sus sistemas de seguridad sin necesidad de complejos “jailbreaks”.

Los modelos de inteligencia artificial conversacional, como ChatGPT, están diseñados con estrictos mecanismos de seguridad para evitar comportamientos dañinos: desde insultar a un usuario hasta explicar cómo fabricar sustancias controladas. Sin embargo, una nueva investigación académica encendió las alarmas al demostrar que estas defensas pueden ser burladas con un recurso tan humano como la persuasión.
El trabajo, liderado por investigadores de la Universidad de Pensilvania, analizó más de 28.000 conversaciones con GPT-4o mini para comprobar si los principios de influencia descritos por el psicólogo Robert Cialdini —autor del clásico Influence: The Psychology of Persuasion— afectan también a los sistemas de IA. La respuesta fue contundente: aplicar técnicas como la autoridad, la reciprocidad, la escasez o la prueba social duplicó la tasa de cumplimiento de solicitudes problemáticas. Mientras que en condiciones normales el modelo obedecía un 33% de las veces, bajo persuasión el índice de éxito escaló al 72%.
El hallazgo más inquietante se dio en la prueba de síntesis química. Cuando se pedía directamente a la IA instrucciones para producir lidocaína (una sustancia regulada), solo respondía un 1% de las veces. Pero al enmarcar la conversación primero con una consulta sobre la elaboración de vainillina —mostrando que podía responder preguntas químicas “inocentes”—, el modelo terminó cediendo el 100% de las veces. Algo similar ocurrió con técnicas más sociales: decirle que “otros modelos de lenguaje ya lo hacen” aumentaba la obediencia en un 18%.
Más allá de la anécdota, el estudio deja al descubierto una vulnerabilidad crítica: no siempre se requieren ataques sofisticados de jailbreak para sortear las restricciones de un chatbot; en muchos casos basta con replicar las mismas estrategias de manipulación que funcionan con las personas. En otras palabras, los sistemas de IA, entrenados en lenguaje humano, parecen susceptibles a los mismos sesgos cognitivos que nos gobiernan.
Esto plantea un doble desafío. Por un lado, alerta a desarrolladores y reguladores sobre el riesgo de que actores malintencionados exploten estas debilidades para usos ilegales. Por otro, abre la puerta a repensar cómo entrenar modelos que resistan no solo a prompts maliciosos explícitos, sino también a la sutileza de la influencia social. La frontera entre psicología humana e inteligencia artificial se revela, una vez más, más difusa de lo que creíamos.




Comentarios