Desarrollar y operar inteligencia artificial (IA) se está volviendo cada vez más caro. Se estima que OpenAI gastará hasta 7 mil millones de dólares este año en sus operaciones de IA, mientras que el CEO de Anthropic ha sugerido que pronto podrían aparecer modelos que cuesten más de 10 mil millones. Por eso, hay una búsqueda activa de formas de hacer la IA más económica.
Algunos investigadores están trabajando en técnicas para optimizar las arquitecturas de modelos existentes, es decir, en mejorar la estructura y los componentes que hacen que los modelos funcionen. Otros están desarrollando nuevas arquitecturas que creen que pueden escalar de manera más asequible. Karan Goel se encuentra en este segundo grupo. En la startup Cartesia, que cofundó, trabaja en lo que llama modelos de espacio de estado (SSMs), una arquitectura de modelo nueva y muy eficiente que puede manejar grandes cantidades de datos, como texto e imágenes, de una vez.
Goel afirma que son necesarias nuevas arquitecturas de modelos para construir modelos de IA verdaderamente útiles. La industria de la IA es muy competitiva, tanto en el ámbito comercial como en el de código abierto, y crear el mejor modelo es clave para el éxito.
Antes de unirse a Cartesia, Goel fue candidato a doctorado en el laboratorio de IA de Stanford, donde trabajó bajo la supervisión del científico informático Christopher Ré. Durante su tiempo en Stanford, conoció a Albert Gu, otro candidato a doctorado, y juntos esbozaron lo que se convertiría en el SSM. Después, Goel trabajó en Snorkel AI y Salesforce, mientras que Gu se convirtió en profesor asistente en Carnegie Mellon. Ambos continuaron investigando los SSMs y publicaron varios artículos de investigación importantes sobre la arquitectura.
En 2023, Gu y Goel, junto con dos colegas de Stanford, decidieron unirse para lanzar Cartesia y comercializar su investigación. Cartesia, cuyo equipo fundador también incluye a Ré, está detrás de muchos derivados de Mamba, que es quizás el SSM más popular en la actualidad. Gu y un profesor de Princeton, Tri Dao, iniciaron Mamba como un proyecto de investigación abierto el diciembre pasado y continúan refinándolo con nuevas versiones.
Cartesia se basa en Mamba y también entrena sus propios SSMs. Al igual que todos los SSMs, los de Cartesia proporcionan a la IA algo parecido a una memoria de trabajo, lo que hace que los modelos sean más rápidos y potencialmente más eficientes al utilizar la potencia de cálculo. La mayoría de las aplicaciones de IA hoy en día, como ChatGPT y Sora, funcionan con modelos de arquitectura transformadora. Cuando un transformador procesa datos, añade entradas a algo llamado “estado oculto” para “recordar” lo que ha procesado. Esto es parte de lo que hace que los transformadores sean tan poderosos, pero también es la causa de su ineficiencia.
Los SSMs, en cambio, comprimen cada punto de datos anterior en un resumen de todo lo que han visto antes. A medida que llegan nuevos datos, el “estado” del modelo se actualiza y el SSM descarta la mayoría de los datos anteriores. Como resultado, los SSMs pueden manejar grandes cantidades de datos y superar a los transformadores en ciertas tareas de generación de datos. Con los costos de inferencia en aumento, esto es una propuesta atractiva.
Cartesia funciona como un laboratorio de investigación comunitario, desarrollando SSMs en colaboración con organizaciones externas y también internamente. Su último proyecto, Sonic, es un SSM que puede clonar la voz de una persona o generar una nueva voz, ajustando el tono y la cadencia de la grabación. Goel afirma que Sonic, disponible a través de una API y un panel web, es el modelo más rápido en su categoría.
Sin embargo, Cartesia ha enfrentado muchos de los mismos problemas éticos que otros creadores de modelos de IA. Al menos algunos de sus SSMs se entrenaron con The Pile, un conjunto de datos abierto que contiene libros con derechos de autor no licenciados. Muchas empresas de IA argumentan que la doctrina de uso justo las protege de reclamaciones por infracción, pero eso no ha detenido a los autores de demandar a Meta y Microsoft, entre otros, por supuestamente entrenar modelos con The Pile.
Goel no confirmó si Cartesia sigue entrenando modelos con The Pile, pero mencionó que tienen sistemas de revisión automatizados y manuales, y están trabajando en sistemas de verificación de voz y marcas de agua. Además, Cartesia tiene equipos dedicados a probar aspectos como el rendimiento técnico, el uso indebido y el sesgo.
Actualmente, “cientos” de clientes están pagando por el acceso a la API de Sonic, que es la principal fuente de ingresos de Cartesia. La API es gratuita para hasta 100,000 caracteres leídos en voz alta, y el plan más caro cuesta $299 al mes para 8 millones de caracteres. Cartesia también ofrece un nivel empresarial con soporte dedicado y límites personalizados. Por defecto, la empresa utiliza los datos de los clientes para entrenar sus modelos, aunque los usuarios pueden optar por no participar.
Sonic se está utilizando en juegos, doblaje de voces y más. Goel cree que apenas están comenzando a explorar lo que los SSMs pueden hacer. Su visión incluye modelos que funcionen en cualquier dispositivo y que entiendan y generen cualquier tipo de datos, como texto, imágenes y videos, casi instantáneamente. Este verano, Cartesia lanzó una versión beta de Sonic On-Device, optimizada para funcionar en teléfonos y otros dispositivos móviles para aplicaciones como traducción en tiempo real.
Para el futuro, Cartesia planea desarrollar modelos de IA multimodal, con el objetivo de crear inteligencia en tiempo real que pueda razonar sobre contextos masivos. Sin embargo, para lograrlo, deberá convencer a nuevos clientes de que su arquitectura vale la pena. También tendrá que mantenerse por delante de otros proveedores que experimentan con alternativas a los transformadores.
Cartesia ha cerrado recientemente una ronda de financiamiento de 22 millones de dólares, lo que eleva su total recaudado a 27 millones. Los expertos creen que la tecnología de Cartesia podría impulsar aplicaciones en servicio al cliente, ventas, marketing, robótica y más. Al desafiar la dependencia tradicional de arquitecturas basadas en transformadores, Cartesia ha desbloqueado nuevas formas de construir aplicaciones de IA en tiempo real, rentables y escalables.


