Cada vez que Madonna canta el éxito de la década de 1980 “La Isla Bonita” en su gira de conciertos, imágenes en movimiento de nubes arremolinadas, teñidas de atardecer, se reproducen en pantallas gigantes detrás de ella.
Para conseguir ese aspecto etéreo, la leyenda del pop utilizó una rama poco explorada de la inteligencia artificial (IA) generativa: la herramienta de texto a vídeo. En la cual se escriben algunas palabras, por ejemplo, “puesta de sol sobre una nube surrealista” o “cascada en la selva al amanecer”, y se hace un video instantáneo.
Siguiendo los pasos de los chats de IA y los generadores de imágenes fijas, algunos entusiastas de los videos de IA dicen que la tecnología emergente podría algún día cambiar el entretenimiento, permitiendo, por ejemplo, crear películas con historias y finales personalizables. Pero hay un largo camino por recorrer antes de que esto se pueda lograr, y muchos escollos éticos en el camino.
Para los primeros usuarios, como Madonna, que por décadas ha empujado los límites del arte, fue más bien un experimento. La artista rechazó una versión anterior de las imágenes que habían propuesto para “La Isla Bonita” que usaba gráficos por computadora más convencionales para evocar un ambiente tropical.
“Probamos imágenes generadas por computadora. Se veía bastante insípido y cursi y a ella no le gustó”, dijo Sasha Kasiuha, directora de contenido de la gira Celebration de Madonna, que continúa hasta finales de abril. “Y luego decidimos probar la IA”.
OpenAI, fabricante de ChatGPT, ya dio una idea de cómo podría ser la sofisticada tecnología de texto a video cuando la compañía mostró recientemente Sora, una nueva herramienta que aún no está disponible al público. El equipo de Madonna probó un producto diferente de la empresa de reciente creación Runway, con sede en Nueva York, unas de las pioneras en la tecnología que lanzó su primer modelo público de texto a video en marzo pasado. La compañía presentó una versión más avanzada “Gen-2” en junio.
El director general de Runway, Cristóbal Valenzuela, dijo que si bien algunos ven estas herramientas como un “dispositivo mágico en el que escribes una palabra y de alguna manera evoca exactamente lo que tenías en tu cabeza”, los enfoques más efectivos son de profesionales creativos que buscan una actualización del software de edición digital de décadas de antigüedad que ya están usando.
Dijo que Runway aún no puede hacer un documental de larga duración. Pero podría ayudar a completar un video de fondo, o un b-roll, es decir, las tomas y escenas secundarias que ayudan a contar la historia.
“Eso te ahorra tal vez una semana de trabajo”, dijo Valenzuela. “El denominador común de muchos casos es que la gente lo emplea como una forma de aumentar o acelerar algo que podrían haber hecho antes”.
Los clientes objetivo de Runway son “grandes empresas de streaming, productoras, empresas de postproducción, empresas de efectos visuales, equipos de marketing, empresas de publicidad. Mucha gente que hace contenido para ganarse la vida”, dijo Valenzuela.
Los peligros aguardan. Sin salvaguardas efectivas, los generadores de video de IA podrían amenazar a la democracia con imágenes “deepfake” (vídeos, imágenes o sonidos manipulados mediante inteligencia artificial para parecer auténticos y reales), que podrían convencer de algo que nunca sucedió o, como ya es el caso de los generadores de imágenes de IA, inundar Internet con escenas pornográficas falsas que representan lo que parecen ser personas reales con rostros reconocibles. Bajo la presión de los reguladores, las principales empresas tecnológicas han prometido poner una marca de agua a los resultados generados por IA para ayudar a identificar lo que es real.
También podrían originarse disputas de derechos de autor sobre las colecciones de videos e imágenes con las que se están entrenando los sistemas de IA (ni Runway ni OpenAI revelan sus fuentes de datos) y hasta qué punto están replicando injustamente obras registradas. Y existe el temor de que, en algún momento, las máquinas de hacer videos puedan reemplazar los trabajos humanos y el arte.
Por ahora, los videos más largos generados por IA todavía se miden en segundos y pueden presentar movimientos espasmódicos y fallas reveladoras, como manos y dedos distorsionados. Arreglar eso es “solo una cuestión de más datos y más entrenamiento”, y el poder de la computación del que depende ese entrenamiento, dijo Alexander Waibel, profesor de ciencias de la computación en la Universidad Carnegie Mellon que ha investigado la IA desde la década de 1970.
“Ahora puedo decir: ‘Hazme un video de un conejo vestido de Napoleón caminando por la ciudad de Nueva York’”, dijo Waibel. “Sabe cómo es la ciudad de Nueva York, cómo es un conejo, cómo es Napoleón”.
Lo cual es impresionante, dijo, pero aún está lejos de crear una historia convincente.
Antes de lanzar su modelo de primera generación el año pasado, Runway se hizo famosa por la IA como codesarrolladar del generador de imágenes Stable Diffusion. Otra empresa, Stability AI, con sede en Londres, se ha hecho cargo del desarrollo de Stable Diffusion.
La tecnología subyacente del “modelo de difusión” detrás de la mayoría de los principales generadores de imágenes y videos de IA funciona creando un mapa del ruido, o datos aleatorios, en las imágenes, destruyendo efectivamente una imagen original y luego prediciendo cómo debería verse una nueva. Toma prestada una idea de la física que se puede utilizar para describir, por ejemplo, cómo se difunde el gas hacia el exterior.
“Lo que hacen los modelos de difusión es revertir ese proceso”, dijo Phillip Isola, profesor asociado de ciencias de la computación en el Instituto de Tecnología de Massachusetts. “Toman la aleatoriedad y la congelan de nuevo en el volumen. Esa es la forma de pasar de la aleatoriedad al contenido. Y así es como puedes hacer videos aleatorios”.
La generación de video es más complicada que las imágenes fijas porque debe tener en cuenta la dinámica temporal, o cómo los elementos dentro del video cambian con el tiempo y a través de secuencias de fotogramas, dijo Daniela Rus, otra profesora del MIT que dirige su Laboratorio de Ciencias de la Computación e Inteligencia Artificial.
Rus dijo que los recursos informáticos requeridos son “significativamente más altos que para la generación de imágenes fijas” porque “implica procesar y generar múltiples fotogramas por cada segundo de video”.
Eso no impide que algunas empresas tecnológicas adineradas intenten seguir superándose entre sí a la hora de mostrar la generación de vídeo con IA de mayor calidad durante más tiempo. Requerir descripciones escritas para hacer una imagen fue sólo el comienzo. Google demostró recientemente un nuevo proyecto llamado Genie al que se le puede pedir que transforme una fotografía o incluso un boceto en “una variedad infinita” de mundos de videojuegos explorables.
A corto plazo, es probable que los videos generados por IA aparezcan en contenido educativo y de marketing, proporcionando una alternativa más barata a la producción de imágenes originales u obtención de videos de archivo, dijo Aditi Singh, investigadora de la Universidad Estatal de Cleveland que ha estudiado el mercado de texto a video.
Cuando Madonna habló por primera vez con su equipo sobre la IA, la “intención principal no era: ‘Oh, mira, es un video de IA’”, dijo Kasiuha, el director creativo.
“Me preguntó: ‘¿Puedes usar una de esas herramientas de IA para hacer que la imagen sea más nítida, para asegurarte de que se vea actual y de alta resolución?’”. Dijo Kasiuha. “Le encanta cuando traes contigo nueva tecnología y nuevos tipos de elementos visuales”.
Ya se están haciendo películas más largas generadas por IA. Runway organiza un festival anual de cine de IA para mostrar este tipo de trabajos. Pero queda por ver si eso es lo que el público humano elegirá ver.
“Sigo creyendo en los humanos”, dijo Waibel, el profesor de Carnegie Mellon. “Sigo creyendo que terminará siendo una simbiosis en la que alguna IA proponga algo y un humano lo mejore o lo guíe. O los humanos lo harán y la IA lo arreglará”.