top of page

Voice Engine: la clonación de voz de OpenAI

La empresa lanzó una plataforma de generación de voz a partir de texto que puede crear una voz sintética basada en un clip de voz de 15 segundos. La tecnología podría transformar diversas industrias, pero también plantea desafíos éticos y de seguridad.



OpenAI ha dado un nuevo paso en el campo de la inteligencia artificial con su nuevo modelo de clonación de voz, Voice Engine. La plataforma solo requiere una breve muestra de 15 segundos de la voz de alguien y puede generar una voz artificial capaz de leer textos en el mismo u otro idioma que el hablante.


"Estas implementaciones a pequeña escala están ayudando a informar nuestro enfoque, salvaguardas y pensamiento sobre cómo Voice Engine podría ser utilizado para el bien en diversas industrias", declaró OpenAI en su blog.


Entre las empresas que tienen acceso a esta tecnología se encuentran la empresa de tecnología educativa Age of Learning, la plataforma de narración visual HeyGen, el fabricante de software de salud de primera línea Dimagi, el creador de la aplicación de comunicación de IA Livox y el sistema de salud Lifespan.

En muestras publicadas por OpenAI, se puede escuchar cómo Age of Learning ha estado utilizando la tecnología para generar contenido de voz en off preescrito, así como para leer "respuestas personalizadas en tiempo real" a los estudiantes escritas por GPT-4.



OpenAI comenzó a desarrollar Voice Engine a finales de 2022 y la tecnología ya ha impulsado voces preestablecidas para la API de texto a voz y la función de lectura en voz alta de ChatGPT. Según Jeff Harris, miembro del equipo de productos de Voice Engine de OpenAI, el modelo se entrenó con "una mezcla de datos con licencia y públicamente disponibles".


La generación de texto a audio mediante inteligencia artificial es un área en constante evolución. Mientras que la mayoría se centra en sonidos instrumentales o naturales, menos se han centrado en la generación de voz, parcialmente debido a las preguntas planteadas por OpenAI. Algunas empresas en este espacio incluyen Podcastle y ElevenLabs, que proporcionan tecnología de clonación de voz de IA y herramientas exploradas por Vergecast el año pasado.


Sin embargo, este avance tecnológico no está exento de controversia y preocupaciones éticas. El gobierno de Estados Unidos está tratando de frenar los usos poco éticos de la tecnología de voz de IA, como lo demuestra la reciente prohibición de la Comisión Federal de Comunicaciones de llamadas robóticas utilizando voces de IA, después de que las personas recibieran llamadas no deseadas de una voz clonada de IA del presidente Joe Biden.


OpenAI ha establecido políticas de uso que sus socios deben seguir, incluida la prohibición de utilizar la generación de voz para suplantar a personas u organizaciones sin su consentimiento y la exigencia de obtener el "consentimiento explícito e informado" del hablante original. Además, los socios deben revelar a los oyentes que las voces son generadas por IA y OpenAI ha agregado marcas de agua a los clips de audio para rastrear su origen y monitorear activamente cómo se utiliza el audio.


A pesar de los riesgos, OpenAI sugiere varias medidas que podrían limitar los riesgos asociados con herramientas como esta, incluida la eliminación gradual de la autenticación basada en voz para acceder a cuentas bancarias, políticas para proteger el uso de las voces de las personas en la IA, una mayor educación sobre los deepfakes de IA y el desarrollo de sistemas de seguimiento de contenido de IA.


bottom of page