Durante años, al hablar del coste de la infraestructura de IA, toda la atención ha estado en Nvidia y sus GPUs. Pero el gran cuello de botella empieza a ser otro: la memoria. Mientras los grandes proveedores en la nube se preparan para invertir miles de millones en nuevos centros de datos, el precio de los chips DRAM se ha multiplicado por siete en el último año, encareciendo de forma drástica mantener y mover los datos que necesitan los modelos de IA.
Este cambio está dando lugar a una nueva disciplina: la orquestación de memoria. No se trata solo de tener más memoria, sino de usarla de forma inteligente para que la información adecuada llegue al modelo correcto en el momento preciso. Las empresas que lo consigan podrán responder a las mismas consultas usando menos tokens, abaratando costes y mejorando sus márgenes hasta el punto de marcar la diferencia entre cerrar o seguir operando.
En una conversación analizada por el analista de semiconductores Dan O’Laughlin con Val Bercovici, director de IA en Weka, se destaca cómo incluso servicios punteros como Claude, de Anthropic, están complicando rápidamente su estrategia de gestión de memoria. Un ejemplo es su sistema de “prompt caching”: ahora los clientes pueden pagar para que sus prompts se mantengan en caché durante 5 minutos o una hora. Consultar datos que siguen en caché es mucho más barato, pero cada nuevo dato que se añade puede expulsar información previa, lo que obliga a planificar con cuidado qué se guarda y durante cuánto tiempo.
Este tipo de optimización no solo ocurre a nivel de software. En las capas inferiores del stack, los centros de datos deben decidir cuándo usar DRAM frente a memorias más avanzadas como HBM, y en las capas superiores, los equipos de IA experimentan con enjambres de modelos que comparten cachés para sacar el máximo partido a la memoria disponible. Startups como TensorMesh ya trabajan específicamente en optimizar estas cachés para exprimir más inferencias por cada servidor.
La conclusión es clara: la gestión de la memoria se perfila como un componente crucial en la economía de la IA. A medida que las técnicas de orquestación mejoren y los modelos procesen cada token de forma más eficiente, el coste de la inferencia seguirá bajando. Esto podría hacer viables muchos productos de IA que hoy no salen las cuentas, abriendo una nueva ola de aplicaciones y modelos de negocio.


