Los generadores de video por IA como Sora de OpenAI, Dream Machine de Luma AI y Runway Gen-3 Alpha han estado acaparando titulares últimamente. Sin embargo, una nueva herramienta de Google DeepMind podría solucionar la debilidad que todos comparten: la falta de audio acompañado.
Un reciente post de Google DeepMind ha revelado una nueva herramienta de video a audio (o ‘V2A’) que utiliza una combinación de píxeles y texto para generar automáticamente bandas sonoras y paisajes sonoros para videos generados por IA. En resumen, es otro gran paso hacia la creación de escenas de películas completamente automatizadas.
Esta tecnología V2A puede combinarse con generadores de video de IA (incluido Veo de Google) para crear una banda sonora atmosférica, efectos de sonido oportunos o incluso diálogos que, según Google DeepMind, «coinciden con los personajes y el tono de un video».
Google DeepMind: un sinfín de posibilidades para los creadores
Los creadores no están limitados a una sola opción de audio. La nueva herramienta V2A de DeepMind puede generar un «número ilimitado de bandas sonoras para cualquier entrada de video» en cualquier escena, lo que significa que puedes guiarla hacia el resultado deseado con unos simples comandos de texto.
Google afirma que su herramienta se destaca de la tecnología rival gracias a su capacidad de generar audio basándose puramente en píxeles; proporcionar un comando de texto es aparentemente opcional. Pero DeepMind también es muy consciente del gran potencial de mal uso y deepfakes, por lo que esta herramienta V2A está siendo restringida como un proyecto de investigación por el momento.
DeepMind dice que «antes de considerar abrir el acceso al público en general, nuestra tecnología V2A pasará por rigurosas evaluaciones y pruebas de seguridad». Sin duda, necesitará ser rigurosa, porque los diez ejemplos de videos cortos muestran que la tecnología tiene un potencial explosivo, tanto para bien como para mal.
Impacto en las producciones aficionadas y animación
El potencial para las producciones aficionadas y la animación es enorme. Una escena al estilo Blade Runner (abajo) que muestra coches derrapando por una ciudad con una banda sonora de música electrónica también demuestra cómo podría reducir drásticamente los presupuestos para películas de ciencia ficción.
Los creadores preocupados al menos podrán consolarse con las obvias limitaciones de diálogo mostradas en el video de ‘familia de plastilina’. Pero si el último año nos ha enseñado algo, es que la tecnología V2A de DeepMind solo mejorará drásticamente a partir de aquí.
Un Futuro Sin Necesidad de Actores de Voz
La combinación de videos generados por IA con bandas sonoras y efectos de sonido creados por IA es un cambio de juego en muchos niveles, y añade otra dimensión a una carrera armamentista que ya estaba candente.
OpenAI ya ha dicho que planea agregar audio a su generador de video Sora, que se lanzará a finales de este año. Pero la nueva herramienta V2A de DeepMind muestra que la tecnología ya está en una etapa avanzada y puede crear audio basado puramente en videos, en lugar de necesitar interminables indicaciones.
La herramienta de DeepMind funciona utilizando un modelo de difusión que combina información tomada de los píxeles del video y los comandos de texto del usuario, luego escupe audio comprimido que luego se decodifica en una forma de onda de audio. Aparentemente, fue entrenada en una combinación de video, audio y anotaciones generadas por IA.
Exactamente en qué contenido se entrenó esta herramienta V2A no está claro, pero Google claramente tiene una ventaja potencialmente enorme al poseer la plataforma de compartición de videos más grande del mundo, YouTube. Ni YouTube ni sus términos de servicio son completamente claros sobre cómo sus videos podrían ser utilizados para entrenar modelos de IA, pero el CEO de YouTube, Neal Mohan, recientemente dijo a Bloomberg que algunos creadores tienen contratos que permiten que su contenido sea utilizado para entrenar modelos de IA.
Claramente, la tecnología todavía tiene algunas limitaciones con el diálogo y está lejos de producir un artículo final listo para Hollywood. Pero ya es una herramienta potencialmente poderosa para el desarrollo de guiones gráficos y cineastas aficionados, y la competencia feroz con empresas como OpenAI significa que solo mejorará rápidamente a partir de aquí.
Via | TechRadar