Ça va vite dans l’IA : un nouveau modèle dépasse déjà DeepSeek V3

Qwen2.5-Max, IA, Alibaba Cloud, MoE, modèle de langage, DeepSeek V3, benchmarks IA, SFT, RLHF, OpenAI-API, actualité ia, actu ia

La recherche en intelligence artificielle évolue à une vitesse fulgurante. Alors que DeepSeek V3 impressionnait encore récemment par ses performances, Qwen2.5-Max se présente comme un modèle encore plus avancé. Développé par Alibaba Cloud, Qwen2.5-Max est un modèle MoE (Mixture-of-Experts) ayant bénéficié d’un entraînement de grande ampleur pour repousser les limites du raisonnement et de la génération de texte.

Un Entraînement de Grande Ampleur

Qwen2.5-Max illustre l’importance de la montée en échelle :

  • Plus de 20 000 milliards de tokens utilisés pour la pré-formation.
  • Des techniques de Supervised Fine-Tuning (SFT) et de Reinforcement Learning from Human Feedback (RLHF) pour affiner davantage le modèle.
  • Une structure MoE (Mixture-of-Experts) pensée pour améliorer la spécialisation et la répartition des tâches entre plusieurs « experts » au sein du modèle.

Grâce à ces facteurs, Qwen2.5-Max se distingue par :

  • Une meilleure compréhension du langage.
  • Des capacités de raisonnement renforcées, notamment en mathématiques et en code.

Comparaison avec DeepSeek V3 et Autres Modèles

Lors de tests approfondis sur divers benchmarks, Qwen2.5-Max a surpassé DeepSeek V3 dans plusieurs domaines, notamment :

  • Arena-Hard : un test conçu pour simuler les préférences humaines et évaluer la cohérence des réponses.
  • LiveBench : un ensemble de tâches génériques (compréhension, raisonnement, etc.).
  • LiveCodeBench : un benchmark dédié à l’évaluation des capacités de génération et de compréhension de code.
  • GPQA-Diamond : test orienté vers des questions complexes, exigeant un raisonnement approfondi.

Qwen2.5-Max obtient également des résultats compétitifs sur d’autres évaluations comme MMLU-Pro, centrées sur des épreuves universitaires de haut niveau.


Base Model vs. Instruct Model

  • Base Models : Ces versions du modèle n’intègrent pas l’ajustement supplémentaire pour l’interaction (chat) ou la résolution de tâches pratiques. On évalue leur performance brute.
  • Instruct Models : Orientés vers des applications concrètes (chat, génération de code, etc.), ils intègrent des mécanismes de supervision pour mieux comprendre les requêtes utilisateurs.

Qwen2.5-Max est évalué sous ces deux formats, se distinguant dans les deux catégories grâce à une approche de post-formation pointue.


Tester Qwen2.5-Max sur Qwen Chat

Pour découvrir Qwen2.5-Max :

  1. Qwen Chat : un environnement de test qui permet de converser directement avec le modèle ou de l’utiliser pour des tâches spécifiques (recherche, génération de code, etc.).
  2. API Alibaba Cloud : Qwen2.5-Max est accessible via l’API qwen-max-2025-01-25. Il suffit de créer un compte Alibaba Cloud, d’activer le service Model Studio, puis de générer une clé API.
  3. Compatibilité OpenAI-API : L’API utilise des protocoles similaires à l’OpenAI API, facilitant la transition pour les développeurs déjà familiers avec cette dernière.

En Bref

L’arrivée de Qwen2.5-Max confirme que l’IA continue de monter en puissance à un rythme rapide. Au-delà des performances, Alibaba Cloud indique vouloir :

  • Renforcer le raisonnement des modèles de grande taille par un apprentissage par renforcement étendu.
  • Explorer de nouveaux types d’applications, à la frontière de l’intelligence artificielle et de la connaissance humaine.

L’objectif : offrir des capacités cognitives qui dépassent progressivement ce que l’humain peut faire, ouvrant la voie à un large éventail d’innovations.

Source :
https://qwenlm.github.io/blog/qwen2.5-max/

Lire Aussi :
R1 : Un Nouveau LLM Open Source qui Surpasse OpenAI o1 sur Certains Benchmarks
OpenAI et Axios : Une Alliance pour Transformer l’Industrie de l’Information avec l’IA