top of page

Meta lanzó una herramienta de IA de código abierto para crear música a partir de texto

AudioCraft puede generar efectos de audio, paisajes sonoros y melodías a partir de prompts y tiene un códec de compresión de audio basado en redes neuronales.

Meta anunció el lanzamiento de AudioCraft, una suite de inteligencia artificial (IA) generativa de código abierto para crear música y audio a partir de prompts. Así, los creadores de contenido pueden ingresar descripciones de texto simples para generar paisajes de audio complejos.


AudioCraft consta de tres componentes principales: AudioGen, una herramienta para generar diversos efectos de audio y paisajes sonoros; MusicGen, que puede crear composiciones musicales y melodías a partir de descripciones; y EnCodec, un códec de compresión de audio basado en redes neuronales.


Meta informó que EnCodec, que presentaron por primera vez en noviembre, ha sido mejorado recientemente y permite una "generación de música de mayor calidad con menos elementos". Además, AudioGen puede crear efectos de sonido como el ladrido de un perro, la bocina de un automóvil o pasos sobre un suelo de madera. Y MusicGen puede componer canciones de varios géneros desde cero, basándose en descripciones como "pista de baile pop con melodías pegadizas, percusiones tropicales y ritmos animados, perfecta para la playa". La casa matriz de Facebook afirmó que MusicGen fue entrenado con "20.000 horas de música propiedad de Meta o licenciada específicamente para este propósito".



La empresa señaló que, si bien los modelos de IA generativos centrados en texto e imágenes fijas han recibido mucha atención (y son relativamente fáciles para que las personas experimenten en línea), el desarrollo de herramientas generativas de audio se ha quedado atrás. "Hay algunos trabajos disponibles, pero es muy complicado y no muy accesible, por lo que las personas no pueden experimentar fácilmente con ello", escriben. Sin embargo, esperan que el lanzamiento de AudioCraft bajo la Licencia MIT contribuya a la comunidad en general al proporcionar herramientas accesibles para experimentación musical y de audio.


"Los modelos están disponibles para fines de investigación y para ampliar la comprensión de la tecnología de las personas. Estamos emocionados de dar a los investigadores y profesionales acceso para que puedan entrenar sus propios modelos con sus propios conjuntos de datos por primera vez y ayudar a avanzar en el estado del arte", dijo Meta.


Meta no es la primera compañía que experimenta con generadores de audio y música impulsados por inteligencia artificial. Entre algunos de los intentos más notables recientes, OpenAI lanzó su Jukebox en 2020, Google presentó MusicLM en enero, y el pasado diciembre, un equipo independiente de investigación creó una plataforma de generación de música a partir de texto llamada Riffusion utilizando una base de Stable Diffusion.


bottom of page