top of page

¿Generar videos por medio de texto? Meta lo hizo posible con IA

Mediante inteligencia artificial y aprendizaje automático, Make-A-Video puede combinar imágenes y darles movimiento a partir de una solicitud textual.


En poco tiempo, para dirigir un clip o película bastará con solicitar textualmente las escenas que se desea plasmar: ¿"Un perro vestido de superhéroe con capa roja volando por el cielo"? ¿"Una nave espacial aterrizando en Marte"? ¿"Un caballo bebiendo agua"? Tan solo escríbalo y Make-A-Video lo hará realidad (o, bueno; más bien ficción).


Se trata de una innovación de inteligencia artificial (IA) desarrollada por Meta que permite convertir indicaciones de texto en breves videos. Según informó la empresa, el sistema aprende cómo se ve el mundo a partir de datos emparejados de texto e imagen y cómo se mueve el mundo en función de secuencias de video sin texto asociado.


Make-A-Video combina imágenes estáticas y les aporta movimiento a la hora de recibir una búsqueda escrita. La herramienta funciona debido a la implementación de dos técnicas de aprendizaje automático.


En primer lugar, se trabaja con la “difusión” de imágenes, la cual consiste en crear estéticas visuales a partir de la eliminación del “ruido” en las tomas seleccionadas. Como segunda técnica, la herramienta se examina por sí misma y genera contenido en video sin etiquetar.



Mediante la primera técnica, el sistema logra identificar cómo funcionan las imágenes realistas y, a través de la segunda, genera la secuencia de fotogramas que caracteriza al formato audiovisual. Asimismo, Make-A-Video puede utilizar una imagen o video preexistente para crear diversas variaciones.


En el siguiente ejemplo, se pueden ver los clips obtenidos a partir de las órdenes "Un oso de peluche pintando un retrato", "Un robot bailando en Times Square" y "Un gato mirando televisión con un control remoto en su mano".



Make-A-Video le sigue a Make-A-Scene, otro método de IA generativo multimodal presentado por Meta a principios de este año que permite crear ilustraciones fotorrealistas y arte con calidad literaria utilizando palabras, líneas de texto y bocetos de forma libre. También representa un pasó más en la evolución de otros sistemas IA de texto a imagen, como Craiyon, DALL-E o Stable Diffusion.


Este desarrollo también presenta muchos desafíos, ya que necesita de un poder computacional mayor que el que emplean los modelos de texto a imagen, porque crear un solo video corto requiere de cientos de imágenes. En este sentido, solo las grandes empresas de tecnología podrían permitirse construir estos sistemas en el futuro cercano. Además, son más difíciles de entrenar, porque no hay conjuntos de datos a gran escala de videos de alta calidad combinados con texto.


bottom of page