Las empresas generan más vídeo que nunca —desde archivos de televisión hasta cámaras de tiendas— pero la mayor parte de ese material queda sin revisar ni analizar. A ese enorme volumen de información desaprovechada se le conoce como “datos oscuros”. Para explotar ese recurso, los ex Googlers Aza Kai y Hiraku Yanagita crearon InfiniMind, una startup nacida en Tokio que desarrolla infraestructura de IA capaz de transformar petabytes de vídeo y audio no vistos en datos estructurados y consultables para negocios.
Impulsados por los avances en modelos visión‑lenguaje entre 2021 y 2023 y por costes de GPU a la baja, los fundadores vieron que la tecnología por fin estaba lista para ir más allá del simple etiquetado de objetos en fotogramas. Las soluciones tradicionales permiten identificar lo que aparece en pantalla, pero no seguir narrativas, entender causalidad ni responder preguntas complejas sobre contenidos largos. InfiniMind busca resolver precisamente ese vacío para grandes corporaciones con décadas de archivos audiovisuales.
La compañía ha levantado 5,8 millones de dólares en una ronda semilla liderada por UTEC, con la participación de CX2, Headline Asia, Chiba Dojo y un investigador de IA del programa a16z Scout. Aunque mantiene oficina en Japón, trasladará su sede a Estados Unidos para acelerar su expansión internacional, tras validar su tecnología en un mercado exigente y con fuerte base de hardware y talento ingenieril.
Su primer producto, TV Pulse, se lanzó en Japón en abril de 2025. Esta plataforma de IA analiza en tiempo real contenidos televisivos para que medios y comercios puedan seguir la exposición de marcas y productos, medir el sentimiento de la audiencia y evaluar el impacto en reputación y relaciones públicas. Tras pilotos con grandes cadenas y agencias, InfiniMind ya cuenta con clientes de pago, entre ellos mayoristas y compañías de medios.
El siguiente paso es DeepFrame, una plataforma de inteligencia de vídeo de larga duración enfocada a grandes empresas. Podrá procesar hasta 200 horas de grabación para localizar escenas, personas que intervienen o eventos concretos, integrando análisis de imagen, sonido y voz, sin necesidad de que el cliente programe: solo sube sus datos y recibe insights accionables. Según la empresa, su sistema admite vídeos de longitud ilimitada y se diferencia por la eficiencia de costes además de la precisión.
En un mercado fragmentado, donde actores como TwelveLabs ofrecen APIs genéricas de comprensión de vídeo para perfiles muy variados, InfiniMind se especializa en usos empresariales como monitorización, seguridad, cumplimiento y análisis profundo de contenido. Los fondos de la ronda semilla se destinarán a mejorar el modelo DeepFrame, reforzar la infraestructura de ingeniería, contratar más talento técnico y ganar clientes en Japón y EE. UU.
Para su CEO, avanzar en inteligencia general de vídeo es también un paso hacia formas más amplias de IA avanzada: comprender el contenido audiovisual a gran escala se parece a comprender mejor la realidad misma, con el objetivo final de ayudar a las organizaciones a tomar decisiones más informadas.


