El modelo o3 de OpenAI ha demostrado un rendimiento extraordinario en pruebas de programación, matemáticas y razonamiento, superando ampliamente los benchmarks existentes hasta la fecha. Este avance ha llevado a los expertos a la conclusión de que se requieren nuevos métodos para evaluar eficazmente las capacidades de la inteligencia artificial. Un ejemplo de esto es el modelo ChatGPT de OpenAI, que a principios de 2023 ya superaba exámenes de derecho y MBA, aunque con resultados apenas suficientes. Sin embargo, el progreso en la IA ha sido tan rápido que las pruebas tradicionales diseñadas para humanos y los benchmarks para evaluar a la IA han quedado obsoletos.
En la evolución de los benchmarks para medir la capacidad de la IA, ejemplos notables incluyen el ImageNet Large Scale Visual Recognition Challenge y los logros de AlphaGo de DeepMind. Estos benchmarks han marcado hitos importantes en la capacidad de las máquinas para realizar tareas que antes eran exclusivas de los humanos.
Para abordar los desafíos actuales en la evaluación de la IA, se han desarrollado nuevas pruebas, como FrontierMath de Epoch AI, un conjunto de problemas matemáticos complejos que o3 ha logrado superar significativamente. Además, Humanity’s Last Exam propone un examen aún más abarcador y desafiante, planeado para el 2025, que intentará poner a prueba las capacidades de la IA en una gama aún más amplia de disciplinas.
Otro aspecto destacado es la paradoja de Moravec, que se refiere a la dificultad que tienen las máquinas para realizar tareas sencillas para humanos. En este sentido, el benchmark ARC-AGI, creado por François Chollet, pone a prueba las capacidades de la IA en tareas que suponen un auténtico reto, donde o3 nuevamente ha mostrado resultados sorprendentes.
Este rápido progreso en el desarrollo de la IA resalta no solo la necesidad de diseñar pruebas más complejas y variadas para evaluar estas tecnologías, sino también las potenciales aplicaciones y desafíos futuros de la inteligencia artificial en nuestra sociedad.
