Inception es una nueva empresa de Palo Alto, fundada por el profesor de ciencias de la computación de Stanford, Stefano Ermon. Esta compañía ha desarrollado un modelo de inteligencia artificial (IA) innovador basado en una tecnología llamada “difusión”. Inception lo llama un modelo de lenguaje grande basado en difusión, o “DLM” por sus siglas en inglés.
Los modelos de IA generativa más populares se dividen en dos tipos: los Modelos de Lenguaje Grande (LLMs) y los modelos de difusión. Los LLMs, que utilizan una arquitectura llamada transformador, son utilizados principalmente para generar texto. Por otro lado, los modelos de difusión, que alimentan sistemas de IA como Midjourney y Sora de OpenAI, se utilizan para crear imágenes, videos y audio.
El modelo de Inception combina las capacidades de los LLMs tradicionales, como la generación de código y la respuesta a preguntas, pero promete un rendimiento mucho más rápido y costos de computación reducidos. Ermon ha estado investigando cómo aplicar los modelos de difusión al texto en su laboratorio de Stanford, ya que considera que los LLMs son relativamente lentos en comparación con esta nueva tecnología.
Según Ermon, en los LLMs, “no puedes generar la segunda palabra hasta que hayas generado la primera, y no puedes generar la tercera hasta que tengas las dos primeras”. En cambio, los modelos de difusión comienzan con una estimación básica de los datos que están generando (como una imagen) y luego enfocan esos datos de una vez. Ermon pensó que era posible generar y modificar grandes bloques de texto en paralelo utilizando modelos de difusión.
Después de años de investigación, él y uno de sus estudiantes lograron un gran avance, que publicaron en un artículo el año pasado. Reconociendo el potencial de este avance, Ermon fundó Inception el verano pasado, junto a dos exalumnos, el profesor Aditya Grover de UCLA y el profesor Volodymyr Kuleshov de Cornell.
Aunque Ermon no quiso hablar sobre la financiación de Inception, se sabe que el Mayfield Fund ha invertido en la empresa. Inception ya ha conseguido varios clientes, incluyendo empresas de la lista Fortune 100, al abordar su necesidad crítica de reducir la latencia de la IA y aumentar la velocidad. “Nuestros modelos pueden aprovechar las GPU de manera mucho más eficiente”, dijo Ermon, refiriéndose a los chips de computadora que se utilizan comúnmente para ejecutar modelos en producción. “Creo que esto es un gran avance, porque cambiará la forma en que las personas construyen modelos de lenguaje”.
Inception ofrece una API, opciones de implementación en las instalaciones y en dispositivos de borde, soporte para ajustar modelos y una gama de DLMs listos para usar para diferentes casos de uso. La compañía afirma que sus DLMs pueden funcionar hasta 10 veces más rápido que los LLMs tradicionales y a un costo 10 veces menor. “Nuestro modelo de codificación ‘pequeño’ es tan bueno como el mini GPT-4 de OpenAI, pero más de 10 veces más rápido”, dijo un portavoz de la empresa. “Nuestro modelo ‘mini’ supera a modelos pequeños de código abierto como Llama 3.1 8B de Meta y logra más de 1,000 tokens por segundo”. “Tokens” se refiere a fragmentos de datos. Alcanzar 1,000 tokens por segundo es una velocidad impresionante, siempre que las afirmaciones de Inception sean ciertas.


