"AWS lanza nuevas características para reducir costos y mejorar el rendimiento de la inteligencia artificial generativa en producción"

December 4, 2024 / Pablo

“AWS lanza nuevas características para reducir costos y mejorar el rendimiento de la inteligencia artificial generativa en producción”

A medida que las empresas pasan de probar la inteligencia artificial generativa en prototipos limitados a implementarla en producción, se vuelven más conscientes de los costos. Usar modelos de lenguaje grandes no es barato, y una forma de reducir gastos es volver a un concepto antiguo: el almacenamiento en caché. Otra opción es dirigir consultas más simples a modelos más pequeños y económicos.

En su conferencia re:invent en Las Vegas, AWS anunció estas dos características para su servicio de alojamiento de modelos de lenguaje Bedrock. Primero, hablemos del servicio de caché. Según Atul Deo, director de producto de Bedrock, si varias personas hacen preguntas sobre el mismo documento, cada vez que se consulta se incurre en un costo. Con el tiempo, las ventanas de contexto se están volviendo más largas, y se espera que aumenten aún más el próximo año.

El almacenamiento en caché asegura que no tengas que pagar por el modelo para realizar trabajos repetitivos y volver a procesar las mismas consultas. Según AWS, esto puede reducir los costos hasta en un 90% y, además, la latencia para obtener respuestas del modelo se reduce significativamente, hasta un 85%. Adobe, que probó el almacenamiento en caché de consultas en algunas de sus aplicaciones de IA generativa en Bedrock, vio una reducción del 72% en el tiempo de respuesta.

La otra gran novedad es el enrutamiento inteligente de consultas para Bedrock. Con esta función, Bedrock puede dirigir automáticamente las consultas a diferentes modelos dentro de la misma familia de modelos, ayudando a las empresas a encontrar el equilibrio adecuado entre rendimiento y costo. El sistema predice cómo se desempeñará cada modelo para una consulta dada y dirige la solicitud en consecuencia.

El enrutamiento de modelos de lenguaje no es un concepto nuevo, ya que startups y proyectos de código abierto también lo abordan. Sin embargo, AWS argumenta que su oferta se diferencia porque el enrutador puede dirigir consultas de manera inteligente sin mucha intervención humana. A largo plazo, el equipo planea expandir este sistema y ofrecer más opciones de personalización a los usuarios.

Por último, AWS lanzará un nuevo mercado para Bedrock. La idea es que, aunque Amazon colabora con muchos de los principales proveedores de modelos, ahora hay cientos de modelos especializados que solo tienen unos pocos usuarios dedicados. Debido a la demanda de estos clientes, AWS creará un mercado donde los usuarios deberán gestionar la capacidad de su infraestructura, algo que Bedrock normalmente hace de forma automática. En total, AWS ofrecerá alrededor de 100 de estos modelos emergentes y especializados, con más en camino.

Pablo

"CEO de OpenAI critica a Elon Musk por posible influencia política en beneficio de sus propios negocios"

"AWS lanza la Iniciativa de Equidad Educativa con $100 millones para impulsar la innovación en el aprendizaje digital en comunidades subrepresentadas"

Categorías

Tu fuente diaria de noticias e innovaciones en inteligencia artificial. Mantente conectado con el futuro, hoy.

Now Reading: “AWS lanza nuevas características para reducir costos y mejorar el rendimiento de la inteligencia artificial generativa en producción”