Cada vez que Madonna canta el éxito de los años 80 “La Isla Bonita” en su gira de conciertos, en las pantallas gigantes del estadio detrás de ella se reproducen imágenes en movimiento de nubes arremolinadas teñidas del atardecer.
Para lograr esa apariencia etérea, la leyenda del pop adoptó una rama aún inexplorada de la inteligencia artificial generativa: la herramienta de conversión de texto a video. Escriba algunas palabras, por ejemplo, “atardecer en una nube surrealista” o “cascada en la jungla al amanecer”, y se creará un video instantáneo.
Siguiendo los pasos de los chatbots de IA y los generadores de imágenes fijas, algunos entusiastas de los videos de IA dicen que la tecnología emergente algún día podría cambiar radicalmente el entretenimiento, permitiéndole elegir su propia película con argumentos y finales personalizables. Pero aún queda un largo camino por recorrer antes de que puedan lograrlo, y hay muchos obstáculos éticos en el camino.
Para los primeros en adoptarlo, como Madonna, que durante mucho tiempo ha superado los límites del arte, fue más bien un experimento. Rechazó una versión anterior de las imágenes del concierto de “La Isla Bonita” que utilizaba gráficos por computadora más convencionales para evocar un ambiente tropical.
“Probamos CGI. Parecía bastante soso y cursi y no le gustó”, dijo Sasha Kasiuha, directora de contenidos de la gira Celebration de Madonna que continúa hasta finales de abril. «Y luego decidimos probar la IA».
OpenAI, creador de ChatGPT, dio una idea de cómo podría ser la sofisticada tecnología de texto a video cuando la compañía mostró recientemente Sora , una nueva herramienta que aún no está disponible públicamente. El equipo de Madonna probó un producto diferente de la startup Runway, con sede en Nueva York, que ayudó a ser pionera en la tecnología al lanzar su primer modelo público de conversión de texto a video en marzo pasado. La compañía lanzó una versión más avanzada «Gen-2» en junio.
El director ejecutivo de Runway, Cristóbal Valenzuela, dijo que si bien algunos ven estas herramientas como un “dispositivo mágico en el que escribes una palabra y de alguna manera evoca exactamente lo que tenías en tu cabeza”, los enfoques más efectivos son los de profesionales creativos que buscan una actualización de las décadas de antigüedad. software de edición digital que ya están usando.
Dijo que Runway aún no puede hacer un documental completo. Pero podría ayudar a completar algún vídeo de fondo o material adicional: las tomas y escenas secundarias que ayudan a contar la historia.
“Eso te ahorra quizás como una semana de trabajo”, dijo Valenzuela. «El hilo común de muchos casos de uso es que la gente lo utiliza como una forma de aumentar o acelerar algo que podrían haber hecho antes».
Los clientes objetivo de Runway son “grandes empresas de streaming, productoras, empresas de postproducción, empresas de efectos visuales, equipos de marketing y empresas de publicidad. Hay mucha gente que se gana la vida creando contenido”, dijo Valenzuela.
Los peligros aguardan. Sin salvaguardias efectivas, los generadores de vídeo de IA podrían amenazar a las democracias con videos convincentes “deepfake” de cosas que nunca sucedieron o, como ya ocurre con los generadores de imágenes de IA, inundar Internet con escenas pornográficas falsas que representan lo que parecen ser personas reales con rostros reconocibles. Bajo la presión de los reguladores, las principales empresas de tecnología han prometido poner marcas de agua en los resultados generados por IA para ayudar a identificar lo que es real.
También se están gestando disputas de derechos de autor sobre las colecciones de videos e imágenes con las que se entrenan los sistemas de inteligencia artificial (ni Runway ni OpenAI divulgan sus fuentes de datos) y en qué medida están replicando injustamente obras de marcas registradas. Y se teme que, en algún momento, las máquinas de producción de videos puedan reemplazar los trabajos y el arte humanos.
Por ahora, los videoclips más largos generados por IA todavía se miden en segundos y pueden presentar movimientos entrecortados y fallos reveladores, como manos y dedos distorsionados. Solucionar esto es “sólo una cuestión de más datos y más capacitación”, y de la potencia informática de la que depende esa capacitación, dijo Alexander Waibel, profesor de ciencias de la computación en la Universidad Carnegie Mellon que ha estado investigando la IA desde los años 1970.
«Ahora puedo decir: ‘Hazme un vídeo de un conejo vestido como Napoleón caminando por la ciudad de Nueva York'», dijo Waibel. «Sabe cómo es la ciudad de Nueva York, cómo es un conejo, cómo es Napoleón».
Lo cual es impresionante, dijo, pero aún está lejos de elaborar una historia convincente.
Antes de lanzar su modelo de primera generación el año pasado, Runway se hizo famoso por la IA como codesarrollador del generador de imágenes Stable Diffusion. Desde entonces, otra empresa, Stability AI, con sede en Londres, se ha hecho cargo del desarrollo de Stable Diffusion.
La tecnología subyacente de “modelo de difusión” detrás de la mayoría de los principales generadores de imágenes y videos de IA funciona mapeando ruido, o datos aleatorios, en imágenes, destruyendo efectivamente una imagen original y luego prediciendo cómo debería verse una nueva. Toma prestada una idea de la física que puede usarse para describir, por ejemplo, cómo se difunde el gas hacia el exterior.
«Lo que hacen los modelos de difusión es revertir ese proceso», afirmó Phillip Isola, profesor asociado de informática en el Instituto Tecnológico de Massachusetts. “En cierto modo toman la aleatoriedad y la congelan nuevamente en el volumen. Ésa es la manera de pasar de la aleatoriedad al contenido. Y así es como puedes hacer videos aleatorios”.
Generar vídeo es más complicado que imágenes fijas porque necesita tener en cuenta la dinámica temporal, o cómo los elementos del vídeo cambian a lo largo del tiempo y a través de secuencias de fotogramas, dijo Daniela Rus, otra profesora del MIT que dirige su Laboratorio de Ciencias de la Computación e Inteligencia Artificial.
Rus dijo que los recursos informáticos necesarios son «significativamente mayores que los de la generación de imágenes fijas» porque «implica procesar y generar múltiples fotogramas por cada segundo de vídeo».
Eso no impide que algunas empresas de tecnología adineradas intenten seguir superándose entre sí al mostrar la generación de videos de IA de mayor calidad y con duraciones más largas. Exigir descripciones escritas para crear una imagen fue solo el comienzo. Google demostró recientemente un nuevo proyecto llamado Genie al que se le puede pedir que transforme una fotografía o incluso un boceto en “una variedad infinita” de mundos de videojuegos explorables.
En el corto plazo, los videos generados por IA probablemente aparecerán en contenido educativo y de marketing, proporcionando una alternativa más barata a producir imágenes originales u obtener videos de archivo, dijo Aditi Singh, investigador de la Universidad Estatal de Cleveland que ha estudiado el sector de la transmisión de texto a mercado de vídeos.
Cuando Madonna habló por primera vez con su equipo sobre la IA, “la intención principal no era: ‘Oh, mira, es un vídeo de IA’”, dijo Kasiuha, la directora creativa.
“Ella me preguntó: ‘¿Puedes usar una de esas herramientas de inteligencia artificial para hacer la imagen más nítida, para asegurarte de que se vea actual y de alta resolución?’”, dijo Kasiuha. «Le encanta cuando incorporas nueva tecnología y nuevos tipos de elementos visuales».
Ya se están haciendo películas más largas generadas por IA. Runway organiza un festival de cine anual sobre IA para mostrar este tipo de trabajos. Pero aún está por verse si eso es lo que el público humano elegirá ver.
«Todavía creo en los humanos», dijo Waibel, profesor de la CMU. “Sigo creyendo que terminará siendo una simbiosis en la que una IA propone algo y un humano lo mejora o lo guía. O los humanos lo harán y la IA lo arreglará”.