Super Mario redefine benchmarks en inteligencia artificial

El Hao AI Lab de la Universidad de California San Diego está llevando a cabo innovaciones en el estudio de la inteligencia artificial utilizando el icónico juego Super Mario Bros. Este clásico de 1985, lleno de desafíos inesperados y emocionantes, ahora se utiliza como un referente para evaluar el rendimiento de diferentes modelos de inteligencia artificial. En un reciente experimento, se probaron varios modelos en tiempo real dentro de un emulador del popular juego. Los investigadores observaron cómo los modelos controlaban al personaje principal, Mario, desafiando sus capacidades para planificar y ejecutar maniobras complejas.

Super Mario como herramienta para medir habilidades en IA

Al utilizar Super Mario Bros., los investigadores buscan contraponer las habilidades de diversos modelos de IA en un entorno dinámico y en constante cambio. A diferencia de pruebas anteriores con otros videojuegos como Pokémon, Super Mario exige a las IA tomar decisiones rápidas y precisas, lo que resulta en una evaluación más precisa de sus capacidades. El modelo Claude 3.7 de Anthropic lideró estas pruebas, destacándose sobre competidores como Google’s Gemini 1.5 Pro y OpenAI’s GPT-4o.

El reto de las decisiones en tiempo real

Uno de los aspectos más fascinantes es cómo Super Mario Bros. fuerza a los modelos de inteligencia artificial a adaptarse a su entorno en tiempo real. Generalmente, los modelos de razonamiento son considerados superiores en resolución de problemas. Sin embargo, durante estas pruebas, no se desempeñaron tan bien debido a la velocidad y precisión requeridas para tomar decisiones en fracciones de segundo.

Repensando las métricas para evaluar IA

Estos hallazgos presentan una reflexión importante sobre cómo evaluamos los avances en inteligencia artificial. A pesar de que los videojuegos ofrecen vastas cantidades de datos para entrenar modelos de IA, también simplifican de manera extrema los problemas del mundo real. Andrej Karpathy, reconocido investigador y miembro fundador de OpenAI, ha indicado la aparición de una “crisis de evaluación”. Esto invita a la comunidad tecnológica a reconsiderar qué métricas deberían usarse para valorar realmente estos avances en inteligencia artificial.

Amigo, el desafío está en escoger las mejores métricas y enfoques para evaluar a las IA. Los juegos, aunque divertidos y desafiantes, son solo una parte del rompecabezas completo. Sigamos buscando soluciones que nos lleven a entender y desarrollar mejor la inteligencia artificial en nuestro mundo, bro.