top of page

ChatGPT ahora puede "ver, escuchar y hablar"

La nueva función de voz "abre puertas a muchas aplicaciones creativas y enfocadas en la accesibilidad", afirmó OpenAI.


OpenAI ha presentado una importante actualización para ChatGPT que permitirá al popular chatbot mantener conversaciones de voz con los usuarios e interactuar utilizando imágenes, acercándose cada vez más a asistentes de inteligencia artificial (IA) populares como Siri de Apple.


Servicios de IA similares, como Siri, el asistente de voz de Google y Alexa de Amazon, están integrados en los dispositivos en los que funcionan y se utilizan frecuentemente para establecer alarmas y recordatorios, así como para proporcionar información de internet.


Desde su lanzamiento el año pasado, ChatGPT ha sido adoptado por empresas para una amplia gama de tareas, desde resumir documentos hasta escribir código informático, desatando una competencia entre las grandes tecnológicas para lanzar sus propias ofertas basadas en IA generativa.


La nueva función de voz de ChatGPT también puede narrar cuentos para dormir, resolver debates en la mesa y leer en voz alta el texto ingresado por los usuarios.



La tecnología detrás de esta función está siendo utilizada por Spotify para permitir a los podcasters de la plataforma traducir su contenido a diferentes idiomas, según informó OpenAI.


Ahora, ChatGPT de OpenAI puede "ver, escuchar y hablar", o al menos entender palabras habladas, responder con una voz sintética y procesar imágenes, anunció la compañía el lunes.


Esta actualización del chatbot, la más grande de OpenAI desde la introducción de GPT-4, permite a los usuarios optar por conversaciones de voz en la aplicación móvil de ChatGPT y elegir entre cinco voces sintéticas diferentes para que el bot responda. Los usuarios también podrán compartir imágenes con ChatGPT y resaltar áreas de enfoque o análisis (piense en: "¿Qué tipos de nubes son estas?").


Los cambios estarán disponibles para los usuarios de pago en las próximas dos semanas, según OpenAI. Aunque la funcionalidad de voz estará limitada a las aplicaciones de iOS y Android, las capacidades de procesamiento de imágenes estarán disponibles en todas las plataformas.


Este gran impulso de características se produce junto con las crecientes apuestas de la carrera armamentista de inteligencia artificial entre líderes de chatbots como OpenAI, Microsoft, Google y Anthropic. En un esfuerzo por alentar a los consumidores a adoptar la IA generativa en su vida diaria, las gigantes tecnológicas están compitiendo por lanzar no solo nuevas aplicaciones de chatbot, sino también nuevas características, especialmente este verano. Google ha anunciado una serie de actualizaciones para su chatbot Bard, y Microsoft ha agregado la búsqueda visual a Bing.


A principios de este año, la ampliación de la inversión de Microsoft en OpenAI, un adicional de US$10.000 millones, la convirtió en la mayor inversión en IA del año, según PitchBook. En abril, la startup cerró supuestamente una venta de acciones de US$300 millones a una valoración de entre US$27.000 millones y US$29.000 millones, con inversiones de firmas como Sequoia Capital y Andreessen Horowitz.


Los expertos han planteado preocupaciones sobre las voces sintéticas generadas por IA, que en este caso podrían brindar a los usuarios una experiencia más natural, pero también permitir deepfakes más convincentes. Actores y investigadores de amenazas cibernéticas ya han comenzado a explorar cómo los deepfakes pueden usarse para penetrar sistemas de ciberseguridad.


OpenAI reconoció esas preocupaciones en su anuncio, afirmando que las voces sintéticas fueron "creadas con actores de voz con los que hemos trabajado directamente", en lugar de ser recopiladas de desconocidos.


El comunicado también proporcionó poca información sobre cómo OpenAI utilizaría las entradas de voz de los consumidores o cómo la empresa garantizaría la seguridad de esos datos si se usaran.


Comments


bottom of page