Las técnicas tradicionales para evaluar la inteligencia artificial (IA) no son suficientes, así que los desarrolladores están buscando formas más creativas de medir las capacidades de los modelos de IA generativa. Un grupo de ellos ha elegido Minecraft, el popular juego de construcción de Microsoft. Han creado un sitio web llamado Minecraft Benchmark (MC-Bench) donde los modelos de IA compiten entre sí en desafíos para responder a solicitudes con creaciones en Minecraft. Los usuarios pueden votar por el modelo que creen que hizo un mejor trabajo, y solo después de votar pueden ver qué IA hizo cada construcción.
Adi Singh, un estudiante de 12° grado que inició MC-Bench, explica que el valor de Minecraft radica en la familiaridad que la gente tiene con el juego, que es el videojuego más vendido de todos los tiempos. Incluso quienes no han jugado pueden evaluar cuál representación de un piña es mejor. “Minecraft permite a las personas ver el progreso del desarrollo de IA de manera más fácil”, dice Singh. “La gente está acostumbrada a Minecraft, a su apariencia y su ambiente”.
Actualmente, MC-Bench cuenta con ocho colaboradores voluntarios. Empresas como Anthropic, Google, OpenAI y Alibaba han apoyado el uso de sus productos para ejecutar los desafíos, aunque no están afiliadas al proyecto. Singh menciona que, por ahora, están haciendo construcciones simples para mostrar cuánto han avanzado desde la era de GPT-3, pero podrían expandirse a tareas más complejas en el futuro. “Los juegos pueden ser un medio para probar el razonamiento de la IA de una manera más segura y controlable”, añade.
Otros juegos como Pokémon Rojo, Street Fighter y Pictionary también se han utilizado como pruebas experimentales para la IA, ya que evaluar la inteligencia artificial es complicado. Los investigadores suelen probar modelos de IA en evaluaciones estandarizadas, pero muchas de estas pruebas les dan una ventaja. Debido a su entrenamiento, los modelos son buenos en ciertos tipos de problemas, especialmente aquellos que requieren memorización o extrapolación básica. Por ejemplo, es difícil entender por qué GPT-4 de OpenAI puede obtener un alto puntaje en el LSAT, pero no puede contar cuántas letras “R” hay en la palabra “fresa”.
MC-Bench es, en esencia, una evaluación de programación, ya que se pide a los modelos que escriban código para crear las construcciones solicitadas, como “Frosty el muñeco de nieve” o “una encantadora cabaña tropical en una playa de arena blanca”. Sin embargo, es más fácil para los usuarios de MC-Bench evaluar si un muñeco de nieve se ve mejor que analizar el código, lo que hace que el proyecto sea más atractivo y le permite recopilar más datos sobre qué modelos tienen un mejor desempeño.
Si esos puntajes realmente indican la utilidad de la IA es un tema debatible. Singh cree que son una señal importante. “La tabla de clasificación actual refleja bastante bien mi experiencia al usar estos modelos, lo cual es diferente de muchas evaluaciones puramente textuales”, dice. “Quizás [MC-Bench] podría ser útil para las empresas para saber si están avanzando en la dirección correcta”.


