SVAP: La evolución inevitable del phishing automatizado por voz
- Redacción IT NOW
- hace 2 días
- 5 Min. de lectura
La voz ya no es prueba de identidad. Con la inteligencia artificial al mando, los fraudes telefónicos han entrado en una nueva era: automatizada, escalable y sorprendentemente creíble. ¿Estamos preparados para esta nueva forma de suplantación invisible y masiva?

Por Gilberto Pérez, Consultor en ciberseguridad
La inteligencia artificial ha transformado profundamente nuestras interacciones digitales, y con ello, también la manera en que se cometen fraudes. En este contexto de cambio constante, me he propuesto introducir y definir públicamente un concepto que considero urgente identificar y categorizar: SVAP (Synthetic Voice Automated Phishing). Aunque desconozco si ya existe una denominación oficial similar, este término responde a un modelo de ataque que observo cada vez más cerca de estar en campañas reales y simuladas.
¿Qué es SVAP?
SVAP es un modelo de ataque automatizado que emplea voz clonada mediante inteligencia artificial para ejecutar llamadas masivas. Lo que lo diferencia de otras variantes es su carácter altamente personalizado y automatizado, orquestado desde sistemas tipo call center controlados por software. El atacante parte de bases de datos filtradas (como nombres, teléfonos, direcciones, etc.) y genera un entorno convincente donde la víctima cree estar hablando con una entidad bancaria real.
Por ejemplo, el atacante toma los datos filtrados de usuarios de un país específico y los introduce en un callbot entrenado para hablar como un agente legítimo de una institución bancaria local. Este bot realiza llamadas automáticas a esos números utilizando una voz clonada que imita con gran precisión a la de un agente o sistema de central telefónica de la entidad. Durante la llamada, el bot válida en vivo la información filtrada con la víctima, mencionando su nombre completo, dirección o últimos movimientos para generar confianza.
Posteriormente, persuade a la persona para que entregue información sensible como el número completo de la tarjeta de crédito y el código CVV. Para reforzar la legitimidad, el sistema puede redirigir a la víctima a una página web falsa, a un IVR clonado o incluso enviar un correo o SMS con enlaces fraudulentos.
Todo este proceso se ejecuta de manera automatizada y en horarios estratégicos —por ejemplo, cuando las instituciones están cerradas—, lo que deja a la víctima sin opciones reales de verificación y aumenta la probabilidad de éxito del engaño.
La voz clonada —una réplica sintética de un agente institucional o incluso de un sistema IVR reconocido— tiene un poder persuasivo pocas veces visto. La ingeniería social ya no depende de una actuación humana convincente: ahora se escala con precisión y velocidad industrial.
Casos reales y simulados
En el marco de mis investigaciones para mi propuesta CVSP (CallVerify Secure Protocol), he desarrollado entornos simulados que replican el comportamiento de ataques tipo SVAP, donde se han alcanzado tasas de éxito sorprendentemente altas en escenarios sin advertencias previas. Esto demuestra la capacidad de esta técnica para operar de forma sigilosa y con una eficacia alarmante. Aunque hasta la fecha no se ha registrado un caso judicial formalmente etiquetado como SVAP o bajo una denominación equivalente, se han identificado patrones de ataque similares, aunque menos sofisticados, en reportes provenientes de países de Latinoamérica y Europa del Este.
El concepto detrás de SVAP (Synthetic Voice Automated Phishing) lo he presentado públicamente por primera vez con ese nombre durante las Jornadas STIC y RootedCON Panamá 2025, como parte de un esfuerzo por visibilizar esta amenaza emergente y proponer estrategias de mitigación desde un enfoque técnico y estratégico. No obstante, el concepto ya lo había introducido y demostrado con laboratorio en vivo durante el VIII Congreso de Informática Forense & Ciberseguridad 2024 en Punta Cana, aunque en ese momento aún no le había asignado un nombre formal.
¿Cómo se diferencia del vishing o del deepfake voice phishing?
La clave está en la automatización. Mientras que el voice phishing tradicional (vishing) depende de un humano para realizar las llamadas, SVAP funciona de forma escalable, sin intervención humana directa. El clon de voz responde automáticamente a patrones predefinidos o integra módulos de lenguaje natural. Se trata de una versión industrializada del engaño.
¿Estamos frente a una amenaza dirigida o masiva? ¿O ambas?
SVAP rompe esquemas de clasificación. Aunque sus campañas pueden impactar a miles, cada llamada parece única. Es decir, estamos frente a un ataque simultáneamente dirigido y masivo: algo que hasta ahora solo veíamos en malware con capacidades de segmentación dinámica. SVAP se adapta, pregunta por información sensible con la misma entonación de una operadora bancaria, y graba todo el proceso en archivos estructurados que posteriormente alimentan redes de fraude o mercados clandestinos.
Comparativa con malware financiero tradicional
A diferencia del malware, que requiere explotar vulnerabilidades técnicas, SVAP se infiltra por el canal más humano: la confianza. Mientras el malware busca entrar en el sistema operativo, SVAP entra en la conversación. Es más difícil de rastrear, más difícil de anticipar y más fácil de ejecutar desde jurisdicciones con baja cooperación internacional.
Un vector fácilmente escalable por región
Una de sus fortalezas —y amenazas— es la capacidad de escalar rápidamente. Basta con adaptar los datos filtrados locales, los códigos DID de cada país y clonar las voces de instituciones bancarias conocidas en esa región. Así, se puede lanzar una campaña efectiva en cuestión de horas.
SVAP en el Marco MITRE ATT&CK
El marco MITRE ATT&CK aún no contempla una subcategoría que refleje esta modalidad específica. Propongo que, en caso de no existir, se considere una nueva subcategoría dedicada al phishing por voz automatizado y sintético. Las características distintivas de SVAP —automatización completa, clonación de voz, segmentación dinámica, escalabilidad internacional— lo colocan en una clase aparte.
¿Qué se puede hacer?
Es aquí donde protocolos como el que propuse —CVSP— cobran relevancia. Necesitamos una capa de autenticación acústica en las llamadas, equivalente a un candado SSL en la web. Así como el cifrado cambió la banca en línea, la protección de la voz debe cambiar la telefonía tradicional y VoIP.
Conclusión
SVAP es más que una amenaza: es el reflejo de cómo la inteligencia artificial, sin regulación ética, puede convertirse en un arma de engaño masivo. Ya no hablamos de un actor humano detrás del fraude, sino de sistemas que simulan con precisión la voz, el comportamiento y hasta la estructura de atención de una institución legítima. Como consultor e investigador, hago un llamado urgente a la banca, a las telecomunicaciones y a las fuerzas del orden a replantear sus mecanismos de confianza.
La voz ya no es prueba de identidad. Hoy, puede ser una mentira perfectamente pronunciada, programada y automatizada.
La pregunta no es si este tipo de ataque llegará a tu país, sino cuándo.
¿Está tu nación preparada para una embestida masiva de SVAP?
Comments