Si alguien te ofrece recrear un video de tu boda con inteligencia artificial, simplemente di que no. Esta es la dura lección que aprendí al intentar revivir recuerdos con el modelo Gemini Veo de Google. Lo que comenzó como un ejercicio divertido terminó en decepción.
Crecí en una época antes de la captura digital. Tomábamos fotos y videos, pero la mayoría estaban guardados en cajas que solo sacábamos en ocasiones especiales. Momentos como el nacimiento de mis hijos y sus primeros años quedaron grabados en película y cinta de 8 mm. Cuando me casé en 1991, ni siquiera teníamos un videógrafo, así que el registro de ese día está completamente en fotos analógicas.
En general, no había redes sociales para capturar y compartir los momentos sorprendentes de mi vida; no podía señalar a alguien Instagram, Facebook o TikTok y decir: “¿No me crees? Mira este enlace”. Sin embargo, tengo una memoria bastante buena y me pregunté si podría combinarla con un poco de magia de IA para revivir esos momentos.
Recientemente, me inscribí en una prueba de tres meses de Google Vertex AI Studio, que incluye acceso a 300 créditos de Veo. Veo 3 es el notable modelo Gemini que puede producir audio y video sincronizados con un solo comando. Para mi prueba, elegí un par de momentos memorables de mi carrera temprana y mis 20 años en Manhattan. Estas son historias 100% verdaderas que me sucedieron, pero no tengo un registro visual de ellas.
Para el primer momento, describí a un joven delgado, con gafas y cabello rizado (sí, alguna vez tuve una cabeza llena de rizos) que se encuentra con un famoso comediante ganador de un premio Tony en Times Square. El comediante era Jackie Mason (pregúntale a tus abuelos) y quería su autógrafo. Se detuvo, pero mientras hablaba con él, inexplicablemente comenzó a preguntarme sobre qué televisor comprar, y un pájaro me hizo “popó” en la cabeza. Mason no se dio cuenta, mantuve la compostura y respondí.
Para el comando, pinté la escena en términos generales, describiendo mi atuendo de negocios, el año – 1989 – y cómo se veía Mason con su cabello rizado y “cara de querubín”. Incluí un poco del diálogo que recordaba y la acción de tocarme la cabeza y darme cuenta de lo que había pasado. Luego alimenté a Veo 3 con el comando.
Unos minutos después, tenía una recreación decente de la escena, completa con el pájaro. El chico no se parecía mucho a mí, y el personaje de Jackie Mason solo tenía un parecido pasajero con el icónico comediante. Aun así, me sentí animado y busqué en mi memoria otro momento memorable de mis 20 años.
Elegí el momento en que intenté impresionar a mi primer jefe con mis habilidades tecnológicas. Su impresora láser (sí, existían en los años 80) se estaba quedando sin tóner, pero recordaba que podías extender la vida de un cartucho sacándolo de la impresora y agitándolo. Así que eso hice, pero el panel del cartucho estaba atascado y terminé cubriéndome a mí mismo y a la oficina con tóner negro mientras mi sorprendido jefe miraba.
En mi comando, describí la escena, incluyendo las paredes de madera de la oficina de 1986, y añadí una breve descripción de mí mismo y de mi jefe calvo y de mediana edad que estaba sentado en su escritorio. El diálogo incluía mi explicación de lo que podía hacer, diciendo “Lo siento”, y la risa de buen humor de mi jefe.
Los resultados esta vez fueron aún mejores. Aunque ninguno de los personajes se parecía a sus contrapartes del mundo real, la impresora, el escritorio y la oficina eran inquietantemente cercanos a mi memoria, y el momento en que el tóner voló por todas partes estuvo bien logrado. Si pudiera abrir mi cerebro y mostrar a la gente mi recuerdo de ese momento, podría verse un poco así. Impresionante.
Imaginando una vida entera de recuerdos reconstruidos con IA, busqué en mi mente otro recuerdo importante. Entonces se me ocurrió: mi boda. Siempre nos ha molestado, especialmente a mi esposa, que no tuviéramos un video de la boda. ¿Y si pudiera crear uno con IA? (Lo sé, lo sé, la anticipación es demasiado evidente).
No sería suficiente simplemente describir una boda en Veo 3 y obtener un video de boda con personas que no se parecían a nosotros. Sin embargo, también sabía que podías guiar a una IA con material de origen. Tengo muchas fotos de boda de hace 34 años. Tomé una imagen escaneada de una que mostraba a mi esposa y a mí poco después de la ceremonia, caminando de la mano por el pasillo. Me gustaba la imagen no solo porque nos representaba claramente, sino también porque incluía a algunos de nuestros invitados y parte del cortejo nupcial.
Con la esperanza de crear un montaje de boda tan deseado (de solo ocho segundos de duración), elaboré este comando: “Necesito un montaje de video de boda basado en esta foto de boda. El video debería parecer que fue grabado en cinta VHS de calidad HD y presentar 2 segundos de la ceremonia, 2 segundos de todos bailando, un segundo del novio alimentando a la novia con pastel de boda, un segundo de la novia lanzando el ramo y un segundo de los recién casados saliendo en una limusina mientras todos se despiden”.
Ambicioso, lo sé, pero pensé que al darle al modelo detalles sobre la duración de las escenas, podría incluirlo todo. Instantáneamente, me encontré con un obstáculo; mi prueba de Veo 3 no me permitía incluir una imagen de origen. Si quería comenzar con una foto, tendría que retroceder a Veo 2, lo que también significaba que perdería el audio. Sin embargo, eso no sería un gran problema, porque, como se describe en el comando, realmente no hay mucho diálogo.
Pasaron unos minutos más para que Veo 2 generara algunos videos. Todos comienzan con la imagen base, pero para ser claros, están muy, muy equivocados. En cada video, el hilo de consistencia se rompe casi instantáneamente, y mi esposa y yo nos transformamos en otras personas. En un momento, estoy bailando mientras sostengo un pastel, y en otro, mi esposa no sabe cómo soltar el ramo que se supone que debe lanzar. Nos alimentamos torpemente de pastel y bailamos juntos de forma extraña.
El video es aterrador porque se ve un poco bien, pero también muy mal. Estos son peores que los recuerdos falsos; es una distorsión activa de uno de los momentos más importantes de mi vida. Le mostré los videos a mi esposa, quien se horrorizó y me dijo que le darían pesadillas. Fue difícil no estar de acuerdo, pero le recordé que los modelos mejorarían y que un resultado futuro sería mejor. Ella no se mostró convencida y me miró como si hubiera vendido a uno de nuestros hijos.
Lo que hice no es diferente de las personas que reaniman fotos de familiares fallecidos con My Heritage. Cualquiera que sea la imagen con la que se comience, todo lo que sucede después de ese primer milisegundo es falso, o peor aún, es una corrupción de la memoria. Si pasaste tiempo con esa persona cuando estaba viva, esa es la verdadera memoria. Una creación de IA es una conjetura, y aunque sea buena, también es falsa. Nunca se movieron así en ese momento específico.
En el caso de mis recuerdos de boda, me doy cuenta de que es mejor dejarlos en el proyector de película de materia gris en mi cabeza. En cuanto a las creaciones de Veo 3 de mis otros recuerdos, no hay una imagen base que corromper. La IA no está recreando mis recuerdos tanto como se ha convertido en una herramienta de narración, otra forma de ilustrar una anécdota divertida. Esa persona no soy yo, ese hombre no es mi antiguo jefe, y ese no es Jackie Mason, pero entiendes la esencia de las historias. Y por eso, la IA cumple su propósito.


