Un nuevo modelo de inteligencia artificial (IA) alcanzó resultados a nivel humano en una prueba diseñada para medir la “inteligencia general”.
El 20 de diciembre, el sistema o3 de OpenAI obtuvo 85% en el benchmark ARC-AGI, muy por encima del mejor puntaje anterior de una IA (55%) y equiparable al promedio humano. También logró buenos resultados en una prueba matemática de alta dificultad.
Crear inteligencia general artificial (AGI, por sus siglas en inglés) es el objetivo declarado de todos los principales laboratorios de investigación en IA. A primera vista, OpenAI parece haber dado un paso significativo hacia este objetivo.
Aunque persisten las dudas, muchos investigadores y desarrolladores de IA sienten que algo ha cambiado. Para muchos, la perspectiva de la AGI ahora parece más real, urgente y cercana de lo anticipado. ¿Tienen razón?
Para entender qué significa el resultado de o3, es necesario comprender de qué trata la prueba ARC-AGI. En términos técnicos, es una prueba de la “eficiencia de muestra” de un sistema de IA al adaptarse a algo nuevo: cuántos ejemplos de una situación desconocida necesita ver el sistema para entender cómo funciona.
Un sistema de IA como ChatGPT (GPT-4) no es muy eficiente con muestras. Fue “entrenado” con millones de ejemplos de texto humano, construyendo “reglas” probabilísticas sobre qué combinaciones de palabras son más probables.
El resultado es bastante bueno en tareas comunes, pero malo en tareas poco comunes, ya que tiene menos datos (menos muestras) sobre esas tareas.
Hasta que los sistemas de IA puedan aprender con pocas muestras y adaptarse de manera más eficiente, solo se usarán para trabajos muy repetitivos o donde se tolere algún fallo ocasional.
La capacidad de resolver problemas desconocidos o novedosos con un número limitado de muestras de datos se conoce como capacidad de generalización. Esta se considera un elemento necesario, incluso fundamental, de la inteligencia.
El benchmark ARC-AGI evalúa la adaptación eficiente con problemas de cuadrículas, como el que se muestra a continuación. La IA necesita identificar el patrón que transforma la cuadrícula de la izquierda en la de la derecha.
Cada pregunta ofrece tres ejemplos para aprender. Luego, el sistema debe encontrar las reglas que “generalicen” de los tres ejemplos al cuarto.
Estas pruebas son similares a los tests de coeficiente intelectual que podrías recordar de la escuela.
No sabemos exactamente cómo lo logró OpenAI, pero los resultados sugieren que el modelo o3 es altamente adaptable. Con solo unos pocos ejemplos, encuentra reglas que pueden generalizarse.