La recherche en intelligence artificielle évolue à une vitesse fulgurante. Alors que DeepSeek V3 impressionnait encore récemment par ses performances, Qwen2.5-Max se présente comme un modèle encore plus avancé. Développé par Alibaba Cloud, Qwen2.5-Max est un modèle MoE (Mixture-of-Experts) ayant bénéficié d’un entraînement de grande ampleur pour repousser les limites du raisonnement et de la génération de texte.
Un Entraînement de Grande Ampleur
Qwen2.5-Max illustre l’importance de la montée en échelle :
- Plus de 20 000 milliards de tokens utilisés pour la pré-formation.
- Des techniques de Supervised Fine-Tuning (SFT) et de Reinforcement Learning from Human Feedback (RLHF) pour affiner davantage le modèle.
- Une structure MoE (Mixture-of-Experts) pensée pour améliorer la spécialisation et la répartition des tâches entre plusieurs « experts » au sein du modèle.
Grâce à ces facteurs, Qwen2.5-Max se distingue par :
- Une meilleure compréhension du langage.
- Des capacités de raisonnement renforcées, notamment en mathématiques et en code.
Comparaison avec DeepSeek V3 et Autres Modèles
Lors de tests approfondis sur divers benchmarks, Qwen2.5-Max a surpassé DeepSeek V3 dans plusieurs domaines, notamment :
- Arena-Hard : un test conçu pour simuler les préférences humaines et évaluer la cohérence des réponses.
- LiveBench : un ensemble de tâches génériques (compréhension, raisonnement, etc.).
- LiveCodeBench : un benchmark dédié à l’évaluation des capacités de génération et de compréhension de code.
- GPQA-Diamond : test orienté vers des questions complexes, exigeant un raisonnement approfondi.
Qwen2.5-Max obtient également des résultats compétitifs sur d’autres évaluations comme MMLU-Pro, centrées sur des épreuves universitaires de haut niveau.
Base Model vs. Instruct Model
- Base Models : Ces versions du modèle n’intègrent pas l’ajustement supplémentaire pour l’interaction (chat) ou la résolution de tâches pratiques. On évalue leur performance brute.
- Instruct Models : Orientés vers des applications concrètes (chat, génération de code, etc.), ils intègrent des mécanismes de supervision pour mieux comprendre les requêtes utilisateurs.
Qwen2.5-Max est évalué sous ces deux formats, se distinguant dans les deux catégories grâce à une approche de post-formation pointue.
Tester Qwen2.5-Max sur Qwen Chat
Pour découvrir Qwen2.5-Max :
- Qwen Chat : un environnement de test qui permet de converser directement avec le modèle ou de l’utiliser pour des tâches spécifiques (recherche, génération de code, etc.).
- API Alibaba Cloud : Qwen2.5-Max est accessible via l’API qwen-max-2025-01-25. Il suffit de créer un compte Alibaba Cloud, d’activer le service Model Studio, puis de générer une clé API.
- Compatibilité OpenAI-API : L’API utilise des protocoles similaires à l’OpenAI API, facilitant la transition pour les développeurs déjà familiers avec cette dernière.
En Bref
L’arrivée de Qwen2.5-Max confirme que l’IA continue de monter en puissance à un rythme rapide. Au-delà des performances, Alibaba Cloud indique vouloir :
- Renforcer le raisonnement des modèles de grande taille par un apprentissage par renforcement étendu.
- Explorer de nouveaux types d’applications, à la frontière de l’intelligence artificielle et de la connaissance humaine.
L’objectif : offrir des capacités cognitives qui dépassent progressivement ce que l’humain peut faire, ouvrant la voie à un large éventail d’innovations.
Source :
https://qwenlm.github.io/blog/qwen2.5-max/
Lire Aussi :
R1 : Un Nouveau LLM Open Source qui Surpasse OpenAI o1 sur Certains Benchmarks
OpenAI et Axios : Une Alliance pour Transformer l’Industrie de l’Information avec l’IA