Gemini 2.5 Pro Experimental se ha posicionado en la cima de la clasificación de inteligencias artificiales según Chatbot Arena, destacando sobre modelos previos como GPT-4o y Grok 3, gracias a sus impresionantes resultados en varias pruebas de rendimiento. Este modelo, lanzado el 25 de marzo, ha demostrado capacidades superiores en conocimientos generales, razonamiento, ciencia, matemáticas y programación entre otras áreas, a través de benchmarks reconocidos como Humanity’s Last Exam, GPQA diamond, y AIME 2025.
A pesar de estos avances, se plantea la interrogante acerca de si estas IA pueden considerarse tan inteligentes como los seres humanos, dado que la definición de inteligencia abarca diversos tipos y medirla incluso entre humanos presenta sus propios retos. Se cuestiona tanto la validez de los benchmarks utilizados como el enfoque de las empresas de IA en lograr buenos resultados en pruebas populares más que en aplicaciones prácticas reales.
Para explorar más allá de las pruebas convencionales y medir la inteligencia de manera más abstracta y comparable a la humana, se ha introducido el benchmark ARC-AGI 2 y FrontierMath. Este último, creado por EpochAI, presenta problemas matemáticos de alta complejidad que desafían tanto a humanos expertos como a las IA, y su resolución por parte de modelos de IA se considera una muestra de avanzada capacidad cognitiva.
En este contexto, Jaime Sevilla de EpochAI explica la importancia de estos benchmarks en la evaluación de la verdadera competencia de las IA, señalando que, si bien las IA han logrado progresar notablemente, la comparación con la inteligencia humana no es directa ni sencilla. Además, resalta la relevancia del escalado en el entrenamiento de IA para mejorar su rendimiento y sugiere que, a pesar de las preocupaciones sobre la eficacia de este enfoque, aún hay margen para avances significativos.
Finalmente, Sevilla aborda la cuestión de la innovación intelectual de la IA, argumentando que, al igual que los humanos, las IA son capaces de combinar conocimientos de manera novedosa, desafiando la idea de que solo regurgitan información. Con miras al futuro, se muestra optimista sobre el potencial de desarrollo de la inteligencia artificial y anticipa avances revolucionarios en la próxima década, con benchmarks como FrontierMath sirviendo como testigos de este progreso.
