Seguimos con las noticias sobre inteligencias artificiales que crean contenidos audiovisuales partiendo desde una descripción textual. Ayer reseñábamos la existencia de AudioGen, una IA text-to-audio, y días antes hablábamos sobre Make-a-Video, la IA de Meta que genera vídeos a partir de texto.
¿De qué inteligencia artificial toca hablar hoy? No de uno, sino de dos modelos de IA que podrían competir directamente con la app de Meta. Se llaman Imagen Video y Phenaki, fueron presentados por Google y son dos IA que convierten texto a vídeo.
Imagen Video prioriza la calidad de los vídeos creados con su IA, aunque sean más cortos
Si algo sabemos los entusiastas de la tecnología es que la experiencia de Google en Inteligencia Artificial es muy extensa. Así, que hayan presentado dos generadores de vídeos a partir de texto no es algo que nos coja por sorpresa. Pero, ¿por qué dos? Porque el enfoque de cada uno es diferente y porque pueden.
El primer modelo es Imagen Video, una IA que se enfoca en crear vídeos de alta calidad. Su base parte desde el mismo código fuente de Imagen, la IA texto-a-imagen de Google que se presentó hace algunas semanas. Sin embargo, Imagen Video es una versión perfeccionada que incorpora un montón de elementos nuevos capaces de convertir imágenes estáticas en imágenes móviles.
Al igual que el modelo de Meta, la IA de Google entrega unos resultados que no son perfectos, pero ciertamente son sorprendentes. Algunos vídeos pueden resultar inquietantes, especialmente si hay rostros o personas moviéndose, pero aun así es un gran paso adelante.
¿Lo mejor? Funciona como cualquier otra IA de este estilo (solo requiere una descripción en texto), pero la calidad de imagen es superior a la de Make-A-Video. Según los desarrolladores de Google, Imagen Video parte de un archivo de solo 16 fotogramas a una velocidad de 3 fps y resolución de 24 x 48 píxeles.
Una vez el vídeo base de baja resolución está listo, se ejecutan varios modelos de IA de superresolución que llevan el resultado final hasta lo siguiente: un vídeo de 128 fotogramas, a 24 fps y una resolución de 1280 x 768 píxeles. Dicho de otra manera, un vídeo en calidad HD de poco más de 5 segundos. En el caso de la IA de Metra, la resolución de salida es de 768×768 píxeles.
Phenaki apuesta por los vídeos largos, pero sacrifica calidad de imagen
La otra IA de texto a vídeo de Google hace todo lo contrario: genera vídeos mucho más largos, pero para ello tiene que sacrificar la calidad final de la imagen de salida.
¿La otra diferencia? Como su objetivo es hacer vídeos mucho más largos, Phenaki requiere instrucciones mucho más detalladas. De hecho, Imagen Video hace su trabajo con una simple oración, pero a Phenaki puedes pedirle que anime un párrafo completo con diferentes secuencias y lo hará.
Como cabría esperar, la coherencia de las imágenes resultantes no es tan buena. Pero el hecho de poder manejar varias escenas y escenarios (como si se tratase de una película) es algo que nos deja boquiabiertos.
Adicionalmente, el equipo de desarrollo de Phenaki reveló otro dato: su modelo de IA genera vídeos de duración arbitraria. No hay límite máximo de tiempo, aunque un mismo texto puede generar dos vídeos de duraciones muy distintas.
Según Google, las versiones futuras de estas dos inteligencias artificiales «serán parte de un conjunto de herramientas cada vez más amplio que ayudará a artistas y usuarios comunes a crear emocionantes formas de expresar su creatividad».
¿Será este el futuro del cine? No lo sabemos, pero el tiempo lo dirá. ¿Cómo puedes probar estas aplicaciones? Por desgracia, estos dos modelos de IA todavía no están disponibles para los usuarios, aunque puedes ver algunos vídeos producidos por ellas en sus portales oficiales.