La taille typique des modèles de langue de grande taille (LLMs ou Large Language Models) en termes de paramètres a considérablement augmenté au fil des années, renforçant ainsi leur capacité à traiter et générer du langage naturel avec un niveau élevé de précision et d’élégance.
Pour commencer, un paramètre dans le contexte des réseaux neuronaux est une valeur ajustée lors de l’entraînement du modèle, souvent référée sous forme de pondérations dans les couches du réseau. Ces paramètres permettent au modèle d’apprendre et de généraliser à partir des données d’entraînement.
En 2018, le modèle BERT (Bidirectional Encoder Representations from Transformers), développé par Google, comprenait environ 340 millions de paramètres (Devlin et al., 2018). Ce modèle a introduit une approche bidirectionnelle pour comprendre le contexte de manière plus approfondie par la transformation d’expressions en leur contexte d’utilisation.
Un autre jalon important a été GPT-2 (Generative Pre-trained Transformer 2) publié par OpenAI en 2019. GPT-2 avait 1,5 milliard de paramètres, une augmentation significative par rapport à BERT, et cela lui a permis de générer du texte avec une cohérence surprenante (Radford et al., 2019).
En 2020, OpenAI a présenté GPT-3, une version beaucoup plus grande et plus complexe avec 175 milliards de paramètres (Brown et al., 2020). GPT-3 est considérablement plus grand que ses prédécesseurs et sa taille accrue lui permet d’atteindre des performances de pointe dans une variété de tâches de traitement du langage naturel, souvent sans nécessiter de réglage fin spécifique pour ces tâches.
Plus récemment, en 2022, DeepMind a introduit le modèle Gopher avec 280 milliards de paramètres, encore une fois repoussant les limites de ce qu’un LLM peut accomplir (Rae et al., 2021). Ce modèle améliore non seulement sur le plan de la génération de texte, mais également dans des domaines tels que la compréhension de la lecture, les réponses aux questions et l’interprétation des relations sociales dans le texte.
En 2023, nous avons vu des développements encore plus massifs avec des rumeurs de modèles ayant plus de 500 milliards de paramètres, bien que ces affirmations nécessitent une validation par des publications scientifiques reconnues.
Ces progrès continus dans la taille des LLMs en termes de paramètres reflètent une tendance vers des capacités de traitement du langage de plus en plus sophistiquées. Cependant, ils posent également des défis importants en termes de coûts de calcul, d’énergie et de ressources pour l’entraînement et le déploiement de ces modèles. Des questions de biais et d’éthique sont également soulevées, car de tels modèles peuvent reproduire et amplifier des biais présents dans les données d’entraînement.
Pour conclure, la taille typique des LLMs a considérablement évolué, passant de quelques centaines de millions de paramètres à plusieurs centaines de milliards en l’espace de quelques années. Exemples notables comprennent BERT avec 340 millions de paramètres, GPT-2 avec 1,5 milliard, GPT-3 avec 175 milliards et Gopher avec 280 milliards de paramètres.
Sources:
- Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.
- Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners.
- Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Amodei, D. (2020). Language Models are Few-Shot Learners.
- Rae, J. W., Borgeaud, S., Cai, T., Millican, K., Hoffmann, J., Song, F., … & Irving, G. (2021). Scaling Language Models: Methods, Challenges, and Lessons from Gopher.