Los modelos de inteligencia artificial que comprenden videos de la misma manera que el texto pueden abrir nuevas y poderosas aplicaciones. Jae Lee, cofundador de Twelve Labs, está convencido de esto. Twelve Labs se especializa en entrenar modelos que analizan videos para diferentes usos. Gracias a sus modelos, los usuarios pueden buscar momentos específicos en videos, resumir clips o hacer preguntas como “¿Cuándo entró la persona con la camisa roja al restaurante?”. Estas capacidades son muy útiles, lo que ha llevado a la empresa a atraer a grandes inversores como Nvidia, Samsung e Intel.
Lee, quien es científico de datos, considera que la búsqueda básica no tiene sentido para los videos. Las búsquedas por palabras clave pueden encontrar títulos, etiquetas y descripciones, pero no el contenido real de los clips. “El video es el medio de más rápido crecimiento y más intensivo en datos, pero la mayoría de las organizaciones no dedicarán recursos humanos para revisar todos sus archivos de video”, explicó Lee. “Incluso si intentas etiquetar manualmente, no resolverá el problema. Encontrar un momento o ángulo específico en videos puede ser como buscar una aguja en un pajar”.
Al no encontrar una mejor solución, Lee reunió a sus colegas Aiden Lee, SJ Kim, Dave Chung y Soyoung Lee para crear una. Así nació Twelve Labs, que entrena modelos para relacionar texto con lo que sucede dentro de un video, incluyendo acciones, objetos y sonidos de fondo.
Modelos como Gemini de Google pueden buscar en grabaciones, y empresas como Microsoft y Amazon ofrecen servicios de análisis de video para identificar objetos en clips. Sin embargo, Lee argumenta que los productos de Twelve Labs se destacan por sus opciones de personalización, que permiten a los clientes adaptar los modelos utilizando sus propios datos.
“Empresas como OpenAI y Google están invirtiendo mucho en modelos multimodales de propósito general”, dijo Lee, “pero estos modelos no están optimizados para video. Nuestra diferenciación radica en ser video-primeros desde el principio… Creemos que el video merece nuestro enfoque exclusivo; no es un complemento”.
Los desarrolladores pueden crear aplicaciones sobre los modelos de Twelve Labs para buscar en grabaciones de video y más. La tecnología de la empresa puede impulsar cosas como la inserción de anuncios, la moderación de contenido y la generación automática de resúmenes de clips.
En una conversación anterior, le pregunté a Lee sobre el potencial sesgo en los modelos de Twelve Labs, ya que es un riesgo importante. Un estudio de 2021 encontró que entrenar un modelo de comprensión de video con clips de noticias locales, que tienden a cubrir el crimen de manera racializada, podría hacer que el modelo aprendiera patrones racistas. Lee mencionó que Twelve Labs planeaba lanzar métricas y conjuntos de datos relacionados con la ética de los modelos, aunque aún no lo ha hecho. En nuestra charla reciente, Lee me aseguró que estas herramientas están en camino y que Twelve Labs realiza pruebas de sesgo en todos sus modelos antes de lanzarlos.
“Todavía no hemos publicado métricas formales de sesgo porque queremos asegurarnos de que sean significativas, prácticas y aplicables”, dijo. “Nuestro objetivo general es desarrollar métricas que no solo nos hagan responsables, sino que también establezcan un estándar en la industria… Hasta que hayamos logrado completamente este objetivo —y tenemos un equipo trabajando en ello— estamos trabajando activamente para crear inteligencia artificial que empodere a las organizaciones de manera responsable, respete las libertades civiles de las personas y fomente el cambio tecnológico”.
Lee agregó que Twelve Labs entrena sus modelos con una mezcla de datos de dominio público y datos licenciados, y no utiliza datos de clientes para el entrenamiento.
El análisis de video sigue siendo fundamental para lo que hace Twelve Labs. Sin embargo, para mantenerse ágil, la empresa también se está expandiendo a áreas como la búsqueda “de cualquier tipo a cualquier tipo” y las incrustaciones multimodales. Uno de los modelos de Twelve Labs, Marengo, puede buscar entre imágenes y audio además de video, y aceptar una grabación de audio, imagen o clip de video como referencia para ayudar en la búsqueda.
Además, la empresa ofrece una API, la Embed API, para crear incrustaciones multimodales para videos, texto, imágenes y archivos de audio. Las incrustaciones son representaciones matemáticas que capturan el significado y las relaciones entre diferentes puntos de datos, lo que las hace útiles para aplicaciones como la detección de anomalías.
El creciente portafolio de productos de Twelve Labs ha ayudado a la startup a asegurar clientes en los sectores empresarial, de medios y entretenimiento. Dos socios importantes son Databricks y Snowflake, que están integrando las herramientas de Twelve Labs en sus ofertas. Databricks desarrolló una integración que permite a los clientes invocar el servicio de incrustación de Twelve Labs desde sus pipelines de datos existentes. Snowflake, por su parte, está creando conectores para los modelos de Twelve Labs en Cortex AI, su servicio de inteligencia artificial completamente gestionado.
“Actualmente tenemos más de 30,000 desarrolladores utilizando nuestra plataforma, desde individuos experimentando hasta grandes empresas integrando nuestra tecnología en sus flujos de trabajo”, dijo Lee. “Por ejemplo, hemos colaborado con municipios para casos de uso como la detección de amenazas en tiempo real, mejorando los tiempos de respuesta de emergencia y ayudando en la gestión del tráfico”.
Como muestra de apoyo estratégico, tanto Databricks como Snowflake invirtieron en Twelve Labs este mes a través de sus respectivos brazos de capital de riesgo. SK Telecom y Hubspot Ventures también se unieron, junto con In-Q-Tel, una organización sin fines de lucro de capital de riesgo con sede en Arlington, Virginia, que invierte en startups que apoyan las capacidades de inteligencia de EE. UU. Las nuevas inversiones totalizaron 30 millones de dólares, elevando el total recaudado por Twelve Labs a 107.1 millones de dólares. Lee dice que los fondos se destinarán al desarrollo de productos y a la contratación.
“Estamos en una posición fiscal muy sólida, pero vimos una oportunidad para profundizar relaciones estratégicas clave con líderes que creen firmemente en Twelve Labs”, dijo Lee. “Actualmente tenemos 73 empleados a tiempo completo y planeamos realizar inversiones significativas en la contratación en áreas de ingeniería, investigación y roles orientados al cliente”.
Hablando de contrataciones, Twelve Labs anunció el jueves que está sumando un presidente a su equipo ejecutivo: Yoon Kim, ex CTO de SK Telecom y arquitecto clave detrás de Siri de Apple. Yoon también será el director de estrategia de Twelve Labs, liderando el agresivo plan de expansión de la startup. “Si bien es inusual que una empresa de la edad y etapa de Twelve Labs contrate a un presidente, este movimiento es un testimonio de la demanda que hemos experimentado”, dijo Lee, añadiendo que Yoon dividirá su tiempo entre la sede de Twelve Labs en San Francisco y sus oficinas en Seúl. “Yoon es la persona adecuada para ayudarnos a ejecutar; será fundamental para impulsar el crecimiento futuro con adquisiciones clave, expandiendo nuestra presencia global y alineando a nuestros equipos hacia metas ambiciosas”.
Lee dice que el objetivo es crecer en nuevos y adyacentes verticales, como el automotriz y la seguridad, en los próximos años. Dada la participación de In-Q-Tel, la seguridad (y posiblemente el trabajo de defensa) parece un camino seguro; Lee no lo confirmó de manera directa. “La inversión de In-Q-Tel refleja la versatilidad y el potencial de nuestra tecnología en muchos sectores, incluida la seguridad nacional”, dijo Lee. “Siempre estamos abiertos a explorar oportunidades donde nuestra tecnología pueda tener un impacto positivo, significativo y responsable que se alinee con nuestras pautas éticas”.


