top of page

La revolución de la creación de videos por IA: ¿qué depara para 2024?

La inteligencia artificial alcanzó su punto álgido en la generación de videos, con 2023 como el año de su explosivo avance. Descubra docenas de productos que han permitido crear clips desde simples textos o imágenes, y qué vendrá a futuro en esta vertiginosa transformación tecnológica.


Animación generada con Genmo a partir del prompt: “Niño jugando con un tigre, estilo anime".


El año pasado marcó un hito para la Inteligencia Artificial en el ámbito del video. A principios de 2023, no existían modelos públicos de texto a video, pero tan solo 12 meses después, decenas de productos de generación de video estaban en uso activo, cautivando a millones de usuarios en todo el mundo con la creación de clips cortos a partir de simples instrucciones de texto o imágenes.


A pesar de este progreso, estos productos de IA para video aún presentan limitaciones. La mayoría genera videos de 3 a 4 segundos, con resultados variables en calidad y desafíos en la consistencia de personajes. La creación de un cortometraje con un solo prompt (o incluso múltiples) sigue siendo una meta distante. No obstante, los avances observados en la generación de video durante el último año sugieren que estamos en las primeras etapas de una transformación masiva, similar a la que experimentamos en la generación de imágenes. Se están logrando mejoras continuas en modelos de texto a video, así como en desarrollos derivados como la generación de video a partir de imágenes y otros videos.


Para comprender mejor esta explosión de innovación, un análisis de Andreessen Horowitz siguió de cerca los mayores desarrollos hasta ahora, las empresas a tener en cuenta y las preguntas fundamentales que aún persisten en este espacio.


El informe ha identificado 21 productos públicos. Los más conocidos son Runway, Pika, Genmo y Stable Video Diffusion, existe una larga lista de otros por descubrir. La mayoría de estos productos provienen de startups, muchas de las cuales comienzan con bots en Discord, lo que presenta algunas ventajas.


Sin embargo, se observa una tendencia hacia más productos de video que desarrollan sus propios sitios web o incluso aplicaciones móviles, especialmente a medida que maduran. Aunque Discord ofrece un buen punto de partida, tiene limitaciones en cuanto al flujo de trabajo que se puede agregar además de la generación pura, y los equipos tienen muy poco control sobre la experiencia del consumidor.



Sorprendentemente, gigantes coo Google, Meta y otros no figuran en la lista de productos públicos, aunque es posible que hayas visto sus impactantes publicaciones anunciando modelos como Emu Video de Meta, VideoPoet y Lumiere de Google, y MagicVideo de ByteDance.


Hasta ahora, las grandes empresas tecnológicas, con la excepción de Alibaba, han optado por no lanzar públicamente sus productos de generación de video. En su lugar, publican documentos sobre diversas formas de generación de video y lanzan videos de demostración sin anunciar si sus modelos serán públicos y cuándo.


Según el análisis de Andreessen Horowitz, estas empresas se mueven lentamente. La mayoría aún no ha lanzado productos de texto a imagen, aunque Instagram lanzó un generador de fondos de inteligencia artificial para Stories a finales del año pasado, y TikTok ha estado lanzando silenciosamente filtros de inteligencia artificial. También, preocupaciones legales, de seguridad y de derechos de autor a menudo dificultan la conversión de la investigación en productos en estas empresas y retrasan su implementación, dando a los recién llegados la oportunidad de obtener una ventaja como pioneros en el mercado.


¿Qué sigue para la IA en el video?

Si alguna vez ha utilizado uno de estos productos, sabe que hay mucho por mejorar y que conseguir un "momento mágico" donde un modelo genere un clip hermoso que coincida con tu indicación es posible, pero relativamente raro. Es más común que necesite volver a generar varias veces y recortar o editar la salida para obtener clips de calidad profesional.

La mayoría de las empresas en este espacio se centran en abordar algunos problemas centrales (y aún no resueltos):


Control: Varios productos han añadido funciones que te permiten hacer zoom o desplazar la cámara o incluso agregar efectos especiales. Es un problema subyacente de calidad del modelo (¿entiende el modelo y puede ejecutar tu indicación?), aunque algunas empresas están tratando de dar a los usuarios más control antes de la generación. El pincel de movimiento de Runway es un buen ejemplo de esto, ya que te permite resaltar áreas específicas de una imagen y determinar cómo se mueven.




Coherencia temporal: ¿Cómo puede hacer que los personajes, objetos y fondos se mantengan consistentes entre fotogramas y no se conviertan en algo diferente o se distorsionen? Este es un problema muy común en todos los modelos disponibles públicamente.



Duración: Muchas empresas limitan la duración de los videos que puede generar porque no pueden garantizar ningún tipo de consistencia después de unos segundos. Si ve un video de inteligencia artificial de larga duración, es porque está compuesto por una serie de clips cortos y requirió decenas y hasta cientos de indicaciones.


Este emocionante avance en la Inteligencia Artificial aplicada al video promete un futuro donde la creación de contenido visual se vuelva aún más accesible y sorprendente. Aunque los desafíos persisten, la industria está en camino hacia una nueva era de posibilidades creativas impulsadas por la tecnología.


Le puede interesar:

bottom of page