top of page

StreamVoice de ByteDance: avances en IA que despiertan preocupaciones sobre fraude y deepfakes

La herramienta permite a un usuario hablar con cualquier otra voz y solo necesita una muestra de audio para lograr una imitación.



La empresa tecnológica china ByteDance, conocida por ser la propietaria de la popular red social TikTok, presentó su último avance en IA generativa: StreamVoice. De acuerdo con Business Insider, esta herramienta permite a los usuarios cambiar instantáneamente su voz por la de otra persona, utilizando una única muestra de la voz que desean imitar. Aunque aún no está disponible para el público, este desarrollo destaca la rápida evolución de la IA, permitiendo la suplantación convincente de la voz y la imagen de perfiles públicos, conocidos como deepfakes.


En las primeras semanas de 2024, algunos individuos ya han utilizado la inteligencia artificial para suplantar la identidad de figuras prominentes como la estrella del pop Taylor Swift y el presidente de Estados Unidos, Joe Biden. Este fenómeno ha generado preocupaciones sobre el potencial de mal uso de la tecnología y sus implicaciones éticas.


El equipo detrás de StreamVoice está compuesto por ingenieros de ByteDance y científicos de la Northwestern Polytechnical University, una institución china reconocida por su colaboración con el ejército del país asiático. Cabe destacar que esta universidad no está afiliada a la Northwestern University de Estados Unidos. En un nuevo artículo académico, los investigadores explican que StreamVoice puede convertir la voz de un usuario en tiempo real, con una latencia de tan solo 124 milisegundos, marcando un avance significativo en comparación con las tecnologías anteriores que solo eran efectivas en reproducciones diferidas.



El artículo destaca los recientes avances en modelos lingüísticos, específicamente haciendo referencia al gran modelo lingüístico de Meta, Llama. Los desarrolladores utilizaron la arquitectura LLaMA para desarrollar StreamVoice, incorporando también el sistema de código abierto de la matriz de Facebook, AudioDec, como un componente fundamental. El entrenamiento de la herramienta se llevó a cabo principalmente con conjuntos de voces en mandarín y un conjunto multilingüe que incluía inglés, finés y alemán.


Aunque los responsables de StreamVoice no detallan las aplicaciones específicas de la herramienta, reconocen los riesgos potenciales de mal uso. Admiten que la tecnología puede utilizarse para fines indebidos, como la difusión de información falsa o el fraude telefónico. En un gesto de responsabilidad, instan a denunciar cualquier uso ilegal de la tecnología de conversión de voz a las autoridades competentes.


Los expertos en IA han advertido durante años sobre la proliferación de los deepfakes, y este nuevo avance plantea preocupaciones adicionales sobre la seguridad y la confiabilidad de la información en un mundo cada vez más digital. Recientemente, un incidente con un deepfake de Joe Biden solicitando a la gente que no votará en las elecciones primarias de Nuevo Hampshire está siendo investigado por las autoridades locales. Este ejemplo subraya la necesidad de abordar los posibles impactos negativos de la tecnología y la importancia de la vigilancia y la regulación adecuadas en su desarrollo y uso futuro.


bottom of page