OpenAI o3 : un saut décisif sur le benchmark ARC-AGI

OpenAI o3 sur ARC-AGI, OpenAI o3, ARC-AGI, Intelligence Artificielle, IA adaptative, ARC Prize, AGI (Artificial General Intelligence), Benchmark IA, Nouvelle génération de LLM, IA AGI O3, IA AGI,

OpenAI vient de présenter son dernier modèle o3, qui vient de réaliser une prouesse sur le benchmark ARC-AGI. Avec un score inédit de 75,7 % sur l’évaluation semi-privée en configuration « haute efficacité » (et un record de 87,5 % en configuration plus coûteuse), o3 se place en tête du classement public de l’ARC Prize. Cette évolution notable met en évidence une capacité d’adaptation à des tâches inédites, rapprochant un peu plus l’IA de l’objectif de l’AGI, l’intelligence artificielle générale.

Un score révolutionnaire sur ARC-AGI

ARC-AGI, qu’est-ce que c’est ?

Le benchmark ARC-AGI est conçu pour tester la capacité d’un modèle à s’adapter à des tâches entièrement nouvelles, faciles pour l’humain mais historiquement complexes pour les IA classiques. Contrairement aux tests saturés par la puissance brute ou la mémorisation, ARC-AGI valorise la généralisation et la capacité d’apprentissage de tâches non vues.

Les résultats d’o3 : deux niveaux de compute

  1. Haute efficacité (budget < $10k)
    • Score semi-privé : 75,7 %
    • Coût total : environ $2 012 pour 100 tâches
    • 1\re place au classement public
  2. Basse efficacité (172x plus de compute)
    • Score semi-privé : 87,5 %
    • Coût plus élevé (inconnu précisément)
    • Amélioration significative des performances, mais usage de ressources considérables

Ces deux résultats montrent que l’amélioration du score dépend fortement de la quantité de calcul allouée, tout en démontrant les nouvelles capacités d’adaptation qu’apporte la série o3.


2. o3 : l’adaptabilité enfin au rendez-vous

Jusqu’à présent, les modèles de langage (LLM) s’appuyaient principalement sur un principe de “mémoriser, appeler et appliquer” des connaissances apprises via d’immenses bases de données textuelles. Cependant, leur réactivité à la nouveauté restait très limitée, comme en témoignent les faibles scores de GPT-3 et GPT-4 sur ARC-AGI.

Avec o3, OpenAI franchit une nouvelle étape :

  • Recherche de programmes (CoT) en langage naturel : le modèle génère et exécute ses propres “programmes textuels” pour résoudre des tâches inédites.
  • Évaluation guidée : un évaluateur interne (un deuxième modèle) note la pertinence des étapes proposées, sur le principe d’une recherche arborescente comparable à l’approche Monte-Carlo (AlphaZero).
  • Résultats probants : cette combinaison procure à o3 la capacité de recombiner ses connaissances au moment du test et de trouver des solutions inédites qu’il n’a pas vues explicitement lors de l’entraînement.

Cette avancée redéfinit la limite jusqu’ici imposée par la simple augmentation de la taille des modèles.


3. Ce n’est pas (encore) l’AGI, mais le cap est tracé

Malgré ce succès, o3 n’est pas considéré comme une AGI. Le modèle échoue encore sur des tâches élémentaires pour un humain, montrant qu’il reste des paliers de compréhension et d’adaptation non franchis. De plus, les premiers tests indiquent que ARC-AGI-2, la nouvelle version du benchmark prévue pour 2025, devrait être bien plus exigeante et pourrait faire chuter le score d’o3 en dessous des 30 % (tandis qu’un humain obtiendrait plus de 95 %).

Néanmoins, cet exploit prouve qu’il est toujours possible de concevoir des évaluations difficiles pour l’IA, tant qu’elle ne maîtrise pas la totalité des capacités cognitives humaines.


4. Le coût, un défi majeur… provisoire ?

Sur un plan purement économique, o3 reste onéreux par rapport aux compétences humaines :

  • En mode « haute efficacité », le coût avoisine $20 par tâche, contre $5 pour un humain.
  • La configuration « basse efficacité » peut monter jusqu’à des milliers de dollars pour un unique lot de 100 tâches.

Toutefois, l’histoire récente de l’IA montre que le prix du calcul chute régulièrement et que l’optimisation pourrait rendre ces approches bien plus abordables. Les mois et années à venir verront sans doute surgir des méthodes de déploiement plus économiques.


5. ARC-AGI-2 et la suite de la recherche

Une compétition qui s’intensifie

L’ARC Prize annonce le lancement de ARC-AGI-2 et la prolongation de la compétition pour 2025. L’objectif :

  • Pousser plus loin la recherche sur l’adaptabilité des systèmes d’IA
  • Développer des solutions open source et haute efficacité pouvant rivaliser avec o3
  • Créer des benchmarks encore plus exigeants, capables de détecter les limites des nouveaux modèles

L’analyse open source

Pour encourager la recherche collaborative, l’ARC Prize publie des données détaillées sur les essais d’o3, incluant les tâches non résolues. Les chercheurs et développeurs sont invités à partager leurs réflexions sur le canal oai-analysis du Discord officiel ou sur Twitter (@arcprize).


En Bref

L’arrivée d’o3 démontre que l’IA atteint un nouveau palier d’adaptabilité, grâce à une forme de recherche de programmes en langage naturel, guidée par un évaluateur interne. Même s’il reste encore de nombreux défis, notamment en termes de coût et de vraie compréhension du monde, on sent que l’on se rapproche d’une IA générale ou, du moins, d’un modèle plus polyvalent.

La prochaine étape : ARC-AGI-2, qui devrait nettement relever la barre. Cette évolution constante renforce l’importance de concevoir des benchmarks pertinents et de partager les avancées de manière open source, afin que toute la communauté de recherche en IA puisse contribuer à franchir les prochaines étapes vers l’AGI.

Source :
https://arcprize.org/blog/oai-o3-pub-breakthrough
https://openai.com/12-days/

Lire Aussi :
GitHub lance Copilot Free : L’IA au service des développeurs
Google active le Mode de réflexion sur son LLM Gemini 2.0 Flash

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.