En una reciente aparición en el podcast “Possible”, co-presentado por Reid Hoffman, cofundador de LinkedIn, el CEO de Google DeepMind, Demis Hassabis, comentó que Google planea combinar sus modelos de inteligencia artificial Gemini con sus modelos de generación de video Veo. Esto tiene como objetivo mejorar la comprensión de Gemini sobre el mundo físico. Hassabis explicó que siempre han diseñado Gemini para ser multimodal desde el principio, ya que tienen la visión de crear un asistente digital universal que realmente ayude a las personas en la vida real.
La industria de la inteligencia artificial avanza hacia modelos “omni”, que pueden entender y sintetizar diferentes tipos de medios. Los nuevos modelos Gemini de Google pueden generar audio, imágenes y texto, mientras que el modelo predeterminado de OpenAI en ChatGPT puede crear imágenes de forma nativa, incluyendo arte al estilo Ghibli. Amazon también ha anunciado que lanzará un modelo “de cualquier tipo a cualquier tipo” más adelante este año. Estos modelos omni requieren una gran cantidad de datos de entrenamiento, como imágenes, videos, audio y texto.
Hassabis insinuó que los datos de video para Veo provienen principalmente de YouTube, una plataforma que Google posee. “Básicamente, al ver muchos videos de YouTube, Veo 2 puede entender la física del mundo”, dijo Hassabis. Google había mencionado anteriormente que sus modelos “podrían estar” entrenados con “algo” de contenido de YouTube, de acuerdo con su acuerdo con los creadores de contenido de la plataforma. Se informa que Google amplió sus términos de servicio el año pasado, en parte para poder acceder a más datos para entrenar sus modelos de inteligencia artificial.


