Les modèles de langage de grande taille (LLMs) sont devenus incontournables dans le domaine du traitement automatique des langues (TAL). Les architectures utilisées pour leur construction sont fondamentales pour leur performance et leur capacité à traiter et générer du texte de manière cohérente et pertinente. Voici un aperçu des principales architectures utilisées pour construire des LLMs, avec des exemples et les sources de ces informations.
1. Réseaux de neurones récurrents (RNN) et ses variantes :
- Description : Les RNN sont un type particulier de réseau de neurones où les connexions entre les unités forment un graphe dirigé le long d’une séquence temporelle. Cela permet aux RNN de conserver une mémoire de séquences précédentes, une caractéristique essentielle pour le traitement du langage.
- Exemple : LSTM (Long Short-Term Memory) et GRU (Gated Recurrent Unit) sont des variantes d’RNN qui tentent de résoudre le problème du gradient qui disparaît, ce qui permet de mieux capturer les dépendances à long terme.
- Sources : Hochreiter et Schmidhuber (1997) introduisent les LSTM, et Cho et al. (2014) proposent les GRU.
1. Transformers :
- Description : Introduits par Vaswani et al. (2017), les Transformers utilisent une architecture basée sur l’attention pour traiter des séquences entières en parallèle, contrairement aux RNN qui traitent les séquences une étape à la fois. Cette approche permet de capturer les dépendances à plus long terme de manière plus efficace.
- Exemples :
– BERT (Bidirectional Encoder Representations from Transformers) : Proposé par Devlin et al. (2018), BERT est un modèle pré-entraîne sur un grand corpus de texte dans une manière bidirectionnelle, ce qui permet de mieux comprendre le contexte des mots dans une phrase.
– GPT (Generative Pre-trained Transformer) : Créé par OpenAI, GPT et ses successeurs (GPT-2, GPT-3) sont des modèles basés sur un transformer unidirectionnel, entraînés sur des vastes corpus de texte pour la génération de texte.
- Sources : Vaswani et al. (2017) pour les Transformers, Devlin et al. (2018) pour BERT, Radford et al. (2018) pour GPT.
1. Mélanges d’experts (Mixture of Experts) :
- Description : Cette architecture repose sur l’idée qu’un modèle peut se diviser en plusieurs experts, chacun étant spécialisé dans un sous-ensemble de tâches. Un mécanisme de routage dynamique détermine quels experts seront activés pour traiter une donnée spécifique.
- Exemples :
– GShard : Présenté par Lepikhin et al. (2020), GShard utilise un mélange d’experts pour augmenter l’efficacité et la capacité des modèles de langage à grande échelle.
- Sources : Shazeer et al. (2017) pour le concept original, Lepikhin et al. (2020) pour GShard.
1. T5 (Text-To-Text Transfer Transformer) :
- Description : Proposé par Raffel et al. (2019), cette architecture traite toutes les tâches NLP comme des problèmes de transformation de texte en texte, unifiant ainsi une multitude de tâches sous un même modèle.
- Exemple : T5 atteint un haut niveau de performance sur un large éventail de tâches NLP en étant formé sur une grande quantité de données sous cette méthodologie.
- Sources : Raffel et al. (2019).
Les architectures RNN et leurs variantes (LSTM, GRU), les Transformers, les mélanges d’experts, et le modèle T5 constituent les piliers des technologies derrière les LLMs actuellement. Chaque architecture a ses propres avantages et inconvénients, et le choix de l’architecture dépend souvent des besoins spécifiques et des contraintes de la tâche à accomplir.
1. Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735-1780.
2. Cho, K., et al. (2014). Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. arXiv preprint arXiv:1406.1078.
3. Vaswani, A., et al. (2017). Attention is all you need. Advances in neural information processing systems.
4. Devlin, J., et al. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805.
5. Radford, A., et al. (2018). Improving Language Understanding by Generative Pre-Training. OpenAI.
6. Shazeer, N., et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. arXiv preprint arXiv:1701.06538.
7. Lepikhin, D., et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv preprint arXiv:2006.16668.
8. Raffel, C., et al. (2019). Exploring the limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683.