La startup Guide Labs, con sede en San Francisco y fundada por Julius Adebayo y Aya Abdelsalam Ismail, presentó Steerling‑8B, un modelo de lenguaje de 8.000 millones de parámetros que promete resolver uno de los mayores problemas de la IA actual: entender por qué un modelo responde lo que responde. La empresa ha liberado el modelo como código abierto y lo ha construido con una arquitectura nueva en la que se introduce una “capa de conceptos” que clasifica y etiqueta la información durante el entrenamiento.
Gracias a este diseño, cada token generado por Steerling‑8B puede rastrearse hasta los datos concretos que influyeron en su creación. Esto permite desde identificar qué fuentes respaldan un hecho citado por el modelo, hasta analizar cómo maneja conceptos complejos como el humor o el género. Adebayo, que inició esta línea de trabajo en su doctorado en el MIT y cofirmó un influyente artículo en 2020 que cuestionaba la fiabilidad de las técnicas de interpretabilidad existentes, sostiene que su enfoque convierte la transparencia en un problema de ingeniería más que de “neurociencia” sobre redes neuronales opacas.
Aunque existe el temor de que una arquitectura tan estructurada limite los comportamientos emergentes de los modelos grandes, Guide Labs afirma que Steerling‑8B sigue siendo capaz de descubrir por sí mismo nuevos conceptos, como ocurrió con el tema de la computación cuántica. Según la empresa, el modelo alcanza alrededor del 90 % de la capacidad de otros LLM comparables, pero usando menos datos de entrenamiento, gracias a esta organización explícita de conceptos.
La propuesta tiene implicaciones prácticas importantes. Para modelos de consumo masivo, podría facilitar el bloqueo de contenidos basados en material con copyright o el control fino de respuestas sobre violencia o drogas. En sectores regulados, como las finanzas, permitiría auditar qué factores usa el modelo —por ejemplo, priorizar historiales financieros y excluir criterios sensibles como la raza al evaluar créditos—. También apuntan a la investigación científica, donde la interpretabilidad ayudaría a entender por qué un modelo acierta en tareas como el plegamiento de proteínas.
Guide Labs, surgida de Y Combinator y que obtuvo una ronda semilla de 9 millones de dólares liderada por Initialized Capital en noviembre de 2024, ve este lanzamiento como una prueba de concepto a gran escala. Su siguiente paso será entrenar modelos más grandes y ofrecer acceso vía API y agentes. Adebayo sostiene que, a medida que se desarrollen sistemas cada vez más inteligentes, resultará fundamental que no tomen decisiones de forma misteriosa, sino con una trazabilidad clara que pueda ser auditada por humanos.


