Amazon ha abierto las puertas de su laboratorio de chips en Austin (Texas), el corazón tecnológico del acuerdo de 50.000 millones de dólares entre AWS y OpenAI. En este centro se diseña Trainium, la familia de chips de inteligencia artificial con la que Amazon busca reducir costes de cómputo, aliviar la dependencia de las GPU de Nvidia y cimentar su estrategia en la nube para la próxima década.
AWS se ha comprometido a entregar a OpenAI 2 gigavatios de capacidad basada en Trainium, pese a que estos chips ya están muy demandados por Anthropic y por Bedrock, la plataforma de Amazon para que empresas construyan sus propias aplicaciones de IA. Hoy existen 1,4 millones de chips Trainium desplegados en tres generaciones, y más de un millón de Trainium2 ejecutan el modelo Claude de Anthropic. Trainium, inicialmente pensado solo para entrenamiento, se ha optimizado también para inferencia, el gran cuello de botella actual del sector.
La nueva generación, Trainium3, se monta en los servidores especializados Trn3 UltraServer. Según Amazon, para un rendimiento similar estos sistemas pueden reducir hasta un 50% los costes frente a servidores tradicionales con GPU, gracias a mejoras como los conmutadores Neuron, que permiten que todos los chips se comuniquen entre sí con baja latencia. Trainium3 es un chip de 3 nanómetros fabricado por TSMC y refrigerado por un avanzado sistema de líquido en circuito cerrado, diseñado también para reducir el impacto energético.
El laboratorio no fabrica los chips, pero es donde se lleva a cabo el “bring-up”: la primera puesta en marcha de cada nueva versión tras unos 18 meses de diseño. Los ingenieros trabajan turnos maratonianos, ajustan hardware sobre la marcha —incluso recurriendo a herramientas como amoladoras o soldaduras de precisión— y utilizan equipos de prueba personalizados para localizar fallos a nivel de componentes microscópicos. De este equipo salieron también Graviton (CPU ARM de bajo consumo), Inferentia (chip de inferencia) y las tecnologías Nitro (virtualización) y las bandejas modulares o “sleds” que integran todos estos elementos en los centros de datos.
Una de las grandes barreras históricas para competir con Nvidia eran los costes de migrar el software. Amazon ha intentado derribarlos añadiendo compatibilidad directa con PyTorch: según sus ingenieros, portar muchos modelos requiere apenas cambiar una línea de código y recompilar, lo que facilita usar Trainium para modelos alojados, por ejemplo, en Hugging Face. Además, AWS ha anunciado una alianza con Cerebras Systems para combinar sus chips de inferencia con Trainium y prometer un rendimiento de IA de muy baja latencia.
Este músculo de hardware ya respalda proyectos masivos como Project Rainier, un clúster con 500.000 Trainium2 que utiliza Anthropic, y será clave para el uso que OpenAI haga de la infraestructura de AWS, aunque el acuerdo está bajo el escrutinio de Microsoft, que podría ver en él una posible violación de su propio pacto de acceso a la tecnología de OpenAI. Mientras tanto, el equipo de chips de AWS —nacido tras la compra de Annapurna Labs en 2015— trabaja ya en Trainium4, bajo la presión directa del CEO Andy Jassy, que presume de que Trainium es ya un negocio multimillonario y una de las apuestas más estratégicas de Amazon en la batalla global por el cómputo de inteligencia artificial.


