entrenar modelos con más y más GPUs y datos ya no sirve de mucho

La industria de la IA generativa está experimentando una fase de estancamiento según perciben expertos y empresas involucradas en su desarrollo. La llegada del nuevo modelo de OpenAI, Orion, ha suscitado menos entusiasmo del esperado, señal de que las innovaciones recientes en esta tecnología no están cumpliendo con las expectativas de progreso previamente establecidas. Ilya Sutskever, cofundador de OpenAI y una figura clave en la creación de ChatGPT, abandonó la compañía para fundar Safe Superintelligence Inc, con la meta de desarrollar una superinteligencia con seguridad de nivel «nuclear», divergiendo de la dirección que OpenAI ha tomado últimamente.

La crítica a la estrategia actual de desarrollo de IA generativa, que se ha centrado en aumentar el tamaño de los modelos y la cantidad de datos no etiquetados para entrenarlos, resuena entre los especialistas. Estos métodos están alcanzando sus límites, ya que incrementar su escala no está resultando en mejoras significativas. Además, el proceso de entrenamiento es costoso y prolongado, sin garantías de éxito. Los nuevos modelos como Orion de OpenAI, Gemini de Google, y Claude 3.5 Opus de Anthropic están evidenciando sólo avances incrementales respecto a sus predecesores, lo que ha llevado a retrasos en sus lanzamientos.

No obstante, sigue habiendo optimismo en el sector. Sutskever y otros están explorando nuevas direcciones para superar las limitaciones actuales, incluida la mejora del «razonamiento» de los modelos mediante técnicas como el «test-time compute», donde el modelo evalúa varias respuestas antes de seleccionar la más precisa. Además, hay un creciente interés en el desarrollo de hardware especializado en inferencia, indicativo de un cambio en el enfoque del escalado de recursos hacia una optimización más sistemática. La «segunda ley del escalado» propuesta por Jensen Huang de NVIDIA sugiere un futuro donde los chips especializados desempeñarán un papel crucial, no solo en el entrenamiento, sino también en la inferencia, abriendo nuevas posibilidades para la innovación en IA generativa.