Les Large Language Models (LLMs) sont de plus en plus présents dans notre quotidien, que ce soit pour la recherche d’informations, l’assistance conversationnelle ou la rédaction de contenus. Pourtant, ils ne sont pas infaillibles, et peuvent parfois générer des informations erronées ou « halluciner » des faits inexistants. Consciente de ce problème, l’équipe à l’origine de FACTS Grounding propose un benchmark complet pour mesurer la fiabilité et la factualité des LLMs vis-à-vis des documents sources. Avec un ensemble de données soigneusement conçu et une méthodologie d’évaluation robuste, FACTS Grounding ambitionne de contribuer à l’amélioration continue de l’IA, en luttant contre les hallucinations et en favorisant des réponses plus justes et plus utiles.
Qu’est-ce que FACTS Grounding ?
FACTS Grounding se présente comme un nouveau référentiel (benchmark) permettant d’évaluer la capacité des LLMs à :
- Produire des réponses factuellement exactes à partir de documents fournis.
- Fournir des informations assez détaillées et pertinentes pour satisfaire la demande de l’utilisateur.
Ce benchmark s’accompagne d’un leaderboard public, actuellement hébergé sur Kaggle, pour suivre la progression et les performances des différents modèles.
2. Pourquoi la factualité est-elle cruciale ?
La fiabilité d’un modèle IA repose sur sa capacité à ne pas inventer ou déformer l’information. Les faux énoncés, s’ils sont pris pour acquis, peuvent avoir des conséquences néfastes (perte de temps, mauvaises décisions, etc.). En particulier, lorsque les tâches demandées sont complexes (documents longs, demandes multi-facettes), la tentation pour le modèle de « broder » ou d’halluciner peut augmenter. FACTS Grounding répond à ce défi en permettant :
- Une analyse approfondie de la véracité des informations,
- Une validation de la pertinence des réponses quant aux questions posées.
3. Composition du dataset FACTS Grounding
Le jeu de données contient 1 719 exemples, chacun comprenant :
- Un document source, pouvant aller jusqu’à 32 000 tokens (environ 20 000 mots).
- Une instruction système indiquant clairement que le modèle doit se baser exclusivement sur le document fourni.
- Une requête utilisateur (résumé, question, réécriture, etc.) à laquelle le modèle doit répondre de manière détaillée et fidèle au document.
Pour couvrir un large spectre de domaines, les exemples incluent :
- Finance, technologie, commerce de détail, médecine, droit et plus encore.
- Des différents types de requêtes (Q&A, résumés, reformulations, etc.).
Le dataset est scindé en deux parties :
- Un ensemble public (860 exemples) : librement accessible pour évaluer n’importe quel LLM.
- Un ensemble privé (859 exemples) : utilisé pour éviter le biais de surentraînement ou de « triche » et pour garantir l’objectivité du leaderboard.
4. Méthodologie d’évaluation et leaderboard
Pour estimer la qualité et la factualité des réponses, FACTS Grounding utilise trois juges LLM (Gemini 1.5 Pro, GPT-4o et Claude 3.5 Sonnet). Cette diversité vise à limiter le biais qu’un juge pourrait avoir envers son « propre » modèle familial. L’évaluation se déroule en deux étapes :
- Eligibilité : la réponse doit suffisamment traiter la requête de l’utilisateur. Une réponse exacte mais ne répondant pas à la question n’est pas valide.
- Exactitude factuelle : la réponse doit être totalement ancrée dans le document fourni, sans ajout d’informations extérieures ou d’hallucinations.
Le score final (grounding score) est la moyenne des jugements, sur la partie publique ET la partie privée du dataset. Les résultats sont mis à jour régulièrement sur la plateforme Kaggle, qui sert de leaderboard officiel.
5. Enjeux et perspectives d’avenir
FACTS Grounding est appelé à évoluer à mesure que les LLMs progressent. Les créateurs du benchmark souhaitent :
- Adapter en continu les exemples et la méthodologie d’évaluation,
- Suivre les innovations pour maintenir un niveau d’exigence élevé,
- Encourager la communauté IA à tester et soumettre leurs modèles, pour favoriser la transparence et la collaboration.
La factualité et le grounding figurent parmi les défis majeurs pour l’avenir des IA. Des benchmarks comme FACTS Grounding contribuent à renforcer la confiance envers les modèles et ouvrent la voie à des applications plus sûres et plus précises.
Lire Aussi :
Génération de vidéo avec L’IA : un fond transparent pour des contenus immersifs
Phi-4 : ce petit LLM de Microsoft qui est passé inaperçu