De belangrijkste architecturen die worden gebruikt om Large Language Models (LLM’s) te bouwen zijn voornamelijk gebaseerd op verschillende neurale netwerken, met een sterke focus op transformer-architecturen. Hieronder bespreek ik enkele van de meest prominente architecturen en geef ik voorbeelden, samen met de bronnen die zijn gebruikt voor deze informatie.
1. Transformer Architectuur: De transformer-architectuur, gepresenteerd door Vaswani et al. in 2017, heeft een revolutie teweeggebracht in natuurlijke taalverwerking (NLP). Deze architectuur maakt gebruik van zelf-attentie mechanismen om contextuele relaties tussen woorden te begrijpen. Het heeft de beperking van sequentiële verwerking zoals gezien bij eerdere RNN-based modellen overwonnen. Een bekend voorbeeld van een LLM dat deze architectuur gebruikt, is de GPT-serie (Generative Pre-trained Transformer) van OpenAI, zoals GPT-3.
Bron: Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.1. BERT (Bidirectional Encoder Representations from Transformers): BERT, ontwikkeld door Google, maakt gebruik van een transformer encoder-architectuur. Het verschilt van de oorspronkelijke transformer doordat het bidirectionele context biedt, wat betekent dat het zowel links als rechts van een woord in de tekst kijkt om context te bieden. Dit model is vooral effectief gebleken in taken zoals vraag-antwoord systemen en sentimentanalyse.
Bron: Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805.1. GPT (Generative Pretraining Transformer): GPT, vooral bekend door de GPT-3 versie, is gebaseerd op transformer decoders. Deze modellen worden eerst voorgetraind op een groot corpus van tekst en vervolgens fijn afgesteld op specifieke taken. GPT-3, bijvoorbeeld, heeft 175 miljard parameters en demonstreert indrukwekkende mogelijkheden in tekstgeneratie, vertaling en zelfs code schrijven.
Bron: Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Amodei, D. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.1. T5 (Text-To-Text Transfer Transformer): T5, ontwikkeld door Google Research, gebruikt een text-to-text benadering waarbij alle NLP-taken worden benaderd als tekst-transformatie taken. De architectuur is gebaseerd op de originele transformer en onderscheidt zich door zijn veelzijdigheid in het aanpakken van verschillende taken met slechts een enkel model.
Bron: Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., … & Liu, P. J. (2019). Exploring the limits of transfer learning with a unified text-to-text transformer. arXiv preprint arXiv:1910.10683.1. XLNet: XLNet combineert de voordelen van autoregressieve modellen zoals GPT en autoencoder modellen zoals BERT. Het maakt gebruik van een vernieuwde trainingstechniek genaamd Permutation Language Modeling, wat resulteert in betere prestaties op een breed scala aan NLP-taken door vollediger contextgebruik.
Bron: Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R., & Le, Q. V. (2019). XLNet: Generalized autoregressive pretraining for language understanding. arXiv preprint arXiv:1906.08237.Deze architecturen vormen de kern van moderne LLM’s en hebben elk unieke eigenschappen die ze geschikt maken voor verschillende toepassingen binnen NLP. Door gebruik te maken van deze verschillende benaderingen, kunnen onderzoekers en ingenieurs modellen ontwikkelen die complexere en meer genuanceerde taalverwerkingsvaardigheden hebben.