Durante años, los directores ejecutivos de grandes empresas tecnológicas han hablado sobre la posibilidad de agentes de inteligencia artificial (IA) que pueden usar aplicaciones de software de manera autónoma para realizar tareas. Sin embargo, al probar los agentes de IA disponibles hoy en día, como ChatGPT de OpenAI o Comet de Perplexity, se hace evidente que la tecnología aún tiene limitaciones. Para hacer que estos agentes sean más efectivos, se están explorando nuevas técnicas, como la simulación cuidadosa de espacios de trabajo donde los agentes pueden ser entrenados en tareas complejas, conocidas como entornos de aprendizaje por refuerzo (RL).
Estos entornos son fundamentales en el desarrollo de agentes de IA. Investigadores y expertos en el campo afirman que los laboratorios de IA están demandando cada vez más estos entornos, y hay muchas startups que buscan ofrecerlos. Jennifer Li, socia general de Andreessen Horowitz, comentó que todos los grandes laboratorios de IA están creando entornos RL internamente, pero también están buscando proveedores externos que puedan generar entornos y evaluaciones de alta calidad.
El interés por los entornos RL ha dado lugar a nuevas startups bien financiadas, como Mechanize Work y Prime Intellect, que buscan liderar este sector. Empresas de etiquetado de datos, como Mercor y Surge, también están invirtiendo en estos entornos para adaptarse a la transición de conjuntos de datos estáticos a simulaciones interactivas. Según informes, Anthropic está considerando invertir más de mil millones de dólares en entornos RL en el próximo año.
Los entornos RL son espacios de entrenamiento que simulan lo que un agente de IA haría en una aplicación de software real. Por ejemplo, un entorno podría simular un navegador Chrome y asignar a un agente la tarea de comprar un par de calcetines en Amazon. Aunque esta tarea parece simple, hay muchos obstáculos que un agente podría encontrar, como perderse en los menús del sitio web o comprar demasiados calcetines. Por lo tanto, los entornos deben ser lo suficientemente robustos para manejar comportamientos inesperados y proporcionar retroalimentación útil.
Algunas startups, como Mechanize Work, se centran exclusivamente en crear entornos RL desde el principio. Esta empresa, fundada hace seis meses, tiene el ambicioso objetivo de “automatizar todos los trabajos”, comenzando por entornos para agentes de codificación de IA. También hay empresas como Prime Intellect que buscan ofrecer entornos RL a desarrolladores más pequeños, permitiéndoles acceder a recursos que normalmente solo tienen los grandes laboratorios de IA.
A pesar del entusiasmo, hay escepticismo sobre si todos estos entornos RL realmente funcionarán. Algunos expertos advierten que estos entornos pueden ser propensos a “hackeos de recompensa”, donde los modelos de IA engañan para obtener recompensas sin realizar realmente la tarea. La clave será ver si los entornos RL pueden escalar y contribuir al progreso de la IA de manera efectiva.


