Amazon lanzó nuevos modelos Nova de video y voz
- Redacción IT NOW
- 10 abr
- 2 Min. de lectura
Con Nova Reel 1.1 y Nova Sonic, apuesta por modelos más naturales, precisos y accesibles. La compañía busca posicionarse como un actor clave frente a gigantes como OpenAI y Google.
Mientras muchos observadores daban por sentado que Amazon estaba rezagado en la competencia por el liderazgo en inteligencia artificial, el gigante del comercio electrónico acaba de dar un golpe sobre la mesa. La compañía ha revelado avances significativos en dos frentes clave de la IA generativa: video y voz, presentando los modelos Nova Reel 1.1 y Nova Sonic. Ambos modelos están disponibles a través de Amazon Bedrock, su plataforma de modelos fundacionales.
La evolución del modelo de video de Amazon, Nova Reel 1.1, representa un salto cualitativo respecto a su versión anterior. Ahora es capaz de generar videos de hasta dos minutos de duración, compuestos por múltiples tomas de seis segundos, manteniendo consistencia de estilo y personajes en toda la narrativa. Esto resuelve uno de los mayores desafíos actuales en la generación de contenido visual: la falta de continuidad entre escenas, un aspecto que aún complica a otros modelos líderes como los de OpenAI o Runway.
Además, los usuarios pueden elegir entre generar un video completo a partir de un solo prompt, o definir cada toma por separado con instrucciones personalizadas, lo que abre posibilidades creativas amplísimas para narrativas complejas, publicidad, educación o entretenimiento.
Por su parte, el modelo de audio Nova Sonic propone una arquitectura unificada que revoluciona el desarrollo de aplicaciones con voz. A diferencia de los enfoques tradicionales —que requieren encadenar modelos separados para reconocimiento de voz, procesamiento del lenguaje y síntesis de texto a voz—, Nova Sonic integra comprensión y generación en un único modelo, conservando el contexto acústico y las nuances del habla humana: tono, ritmo, pausas, vacilaciones y estilo.
Este enfoque no solo mejora la fluidez y naturalidad de las conversaciones, sino que también reduce significativamente la latencia. De hecho, Amazon asegura que Nova Sonic supera en rapidez a GPT-4o de OpenAI, y que es hasta 80% más económico, una ventaja estratégica que podría inclinar la balanza para desarrolladores y empresas que buscan escalar soluciones con voz sin inflar sus costos operativos.
Además, Nova Sonic es particularmente competente en entender frases entrecortadas o mal pronunciadas, y tiene una inteligencia conversacional que evita interrumpir al usuario cuando aún está hablando, algo que incluso los asistentes más avanzados todavía no hacen bien.
Con esta doble apuesta, la compañía de Jeff Bezos no solo responde a las críticas que apuntaban a su bajo perfil en el campo de la IA, sino que se posiciona estratégicamente con soluciones robustas, accesibles y listas para ser adoptadas en sectores clave como salud, educación, entretenimiento, comercio y viajes.
Comments