De typische omvang van Large Language Models (LLM’s) wordt vaak gemeten aan de hand van het aantal parameters die het model heeft. Parameters in een neurale netwerk zijn de waarden die leren tijdens het training proces om de input naar de correcte output te vertalen. Deze parameters zijn essentieel omdat ze de complexiteit en capaciteit van een model weerspiegelen om patronen in data te leren en weer te geven.
Moderne LLM’s, zoals OpenAI’s GPT-3, hebben indrukwekkende aantallen parameters. GPT-3 bijvoorbeeld, een van de grootste en meest geavanceerde taalmodellen tot op heden, heeft 175 miljard parameters (Brown et al., 2020). Dit enorme aantal parameters stelt het model in staat om zeer complexe taken uit te voeren, van tekstgeneratie tot uitvoering van opdrachten in natuurlijke taal.
Ter vergelijking, de voorganger van GPT-3, GPT-2, had “slechts” 1,5 miljard parameters (Radford et al., 2019). Dit toont de enorme sprong in schaal en capaciteit tussen verschillende generaties van taalmodellen aan. De ontwikkeling van een groot aantal parameters is geen triviale taak en vereist aanzienlijke rekenkracht en data.
Andere bekende taalmodellen illustreren ook de trend van de groeiende omvang. BERT (Bidirectional Encoder Representations from Transformers) van Google, bijvoorbeeld, werd gelanceerd met twee varianten: BERT_BASE en BERT_LARGE. BERT_BASE heeft 110 miljoen parameters, terwijl BERT_LARGE 340 miljoen parameters heeft (Devlin et al., 2018). Hoewel deze aantallen aanzienlijk lager zijn dan die van GPT-3, waren ze bij de lancering toch revolutionair in termen van prestaties op verschillende natuurlijke taalverwerkingstaken.
Er zijn diverse bronnen die aangeven dat de toename in parameters niet lineair correleert met verbetering in prestaties. Zo mogen we concluderen dat er een punt van afnemende meeropbrengsten is. Meer parameters betekenen ook grotere eisen aan rekenkracht en opslag, en verhogen mogelijk ook de moeilijkheden bij fijn tuning.
Het is ook belangrijk op te merken dat de omvang van een model niet de enige maatstaf is voor zijn bruikbaarheid of efficiëntie. Nieuwe optimalisatietechnieken, zoals model compressie en kennis distillatie, proberen bijvoorbeeld de hoeveelheid benodigde parameters te verkleinen zonder al te veel in te boeten aan modellering prestaties (Hinton et al., 2015).
Wat de toekomst betreft, zien we een sterke tendens naar zowel het verhogen van de capaciteit als het verbeteren van de efficiëntie van LLM’s. Dit zal waarschijnlijk leiden tot de ontwikkeling van nog grotere modellen met biljoenen parameters, terwijl er parallel ook gewerkt wordt aan methoden om deze modellen efficiënter en betaalbaarder te maken voor praktischer toepassingen.
Bronnen:
1. Brown, T., et al. (2020). Language Models are Few-Shot Learners. Retrieved from https://arxiv.org/abs/2005.14165
2. Radford, A., et al. (2019). Language Models are Unsupervised Multitask Learners. Retrieved from https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask\_learners.pdf
3. Devlin, J., et al. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. Retrieved from https://arxiv.org/abs/1810.04805
4. Hinton, G., et al. (2015). Distilling the Knowledge in a Neural Network. Retrieved from https://arxiv.org/abs/1503.02531