Quels sont les benchmarks standard pour les LLMs ?

Les Large Language Models (LLMs), ou grands modèles de langage, sont des outils de plus en plus utilisés dans divers domaines de traitement du langage naturel (NLP). Afin d’évaluer leurs performances, plusieurs benchmarks standard ont été développés. Ces benchmarks permettent de comparer de manière systématique les capacités et les limites des différents modèles.

1. GLUE (General Language Understanding Evaluation)

L’un des benchmarks les plus connus pour évaluer les modèles de traitement du langage est le GLUE. Il regroupe plusieurs tâches, telles que la classification de texte, la similarité sémantique, et l’inférence textuelle. Par exemple, des tâches comme le Stanford Sentiment Treebank (SST-2) et le Recognition of Textual Entailment (RTE) font partie du GLUE. Les scores obtenus sur ces différentes tâches sont agrégés pour donner un score global, permettant une comparaison directe entre les modèles.

Source: Wang, Alex, et al. “GLUE: A multi-task benchmark and analysis platform for natural language understanding.” arXiv preprint arXiv:1904.0878 (2019).

1. SuperGLUE

SuperGLUE est une version améliorée du GLUE, conçue pour être plus difficile et pour favoriser les modèles plus avancés. Il inclut des tâches supplémentaires et plus complexes telles que WSC (Winograd Schema Challenge) et COPA (Choice of Plausible Alternatives). Ces tâches demandent une compréhension plus profonde et une capacité à raisonner pour répondre correctement.

Source: Wang, Alex, et al. “SuperGLUE: A stickier benchmark for general-purpose language understanding systems.” Advances in Neural Information Processing Systems 32 (2019): 3266-3280.

1. SQuAD (Stanford Question Answering Dataset)

SQuAD est un autre benchmark populaire centré sur les systèmes de question-réponse. Il se compose de questions posées sur des paragraphes tirés de Wikipédia, où les modèles doivent trouver et extraire des réponses exactes. Les itérations SQuAD 1.1 et SQuAD 2.0 sont couramment utilisées, la deuxième ajoutant des questions pour lesquelles aucune réponse n’est présente dans le texte, augmentant ainsi la difficulté et la nécessité de détecter les questions non pertinentes.

Source: Rajpurkar, Pranav, et al. “SQuAD: 100,000+ questions for machine comprehension of text.” arXiv preprint arXiv:1606.05250 (2016).

1. XGLUE et XTREME

XGLUE et XTREME sont des benchmarks dédiés à l’évaluation des LLMs pour le multilinguisme et l’internationalisation. Ils incluent de multiples tâches dans diverses langues, évaluant ainsi la capacité des modèles à généraliser au-delà de l’anglais. Ces benchmarks sont incontournables pour les modèles destinés à être utilisés dans des contextes multilingues.

Source: Li, Xiangyang, et al. “XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation.” arXiv preprint arXiv:2004.01401 (2020).

1. MBART et BLOOM

Pour les modèles multilingues et de génération de texte, MBART (Multilingual BART, un modèle dérivé de BART) et BLOOM sont souvent évalués sur des benchmarks comme XGLUE et XTREME. Ces modèles sont conçus pour traiter des tâches de traduction, de génération de texte et de localisation en plusieurs langues.

Source: Liu, Yinhan, et al. “Multilingual denoising pre-training for neural machine translation.” Transactions of the Association for Computational Linguistics 8 (2020): 726-742.

En conclusion, les benchmarks standard pour les LLMs sont essentiels pour évaluer les modèles de traitement du langage et les comparer de manière systématique. Des benchmarks tels que GLUE, SuperGLUE, SQuAD, XGLUE et XTREME offrent une variété de tâches permettant de mesurer les capacités des modèles dans différents aspects du traitement du langage naturel. Ces benchmarks continuent de jouer un rôle crucial dans le développement et l’amélioration des LLMs.

Sources :
- Wang, Alex, et al. “GLUE: A multi-task benchmark and analysis platform for natural language understanding.” arXiv preprint arXiv:1904.0878 (2019).
- Wang, Alex, et al. “SuperGLUE: A stickier benchmark for general-purpose language understanding systems.” Advances in Neural Information Processing Systems 32 (2019): 3266-3280.
- Rajpurkar, Pranav, et al. “SQuAD: 100,000+ questions for machine comprehension of text.” arXiv preprint arXiv:1606.05250 (2016).
- Li, Xiangyang, et al. “XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training, Understanding and Generation.” arXiv preprint arXiv:2004.01401 (2020).
- Liu, Yinhan, et al. “Multilingual denoising pre-training for neural machine translation.” Transactions of the Association for Computational Linguistics 8 (2020): 726-742.