Neuraal taalmodellen zoals Large Language Models (LLM’s) gebruiken geavanceerde technieken om langdurige afhankelijkheden in teksten te verwerken en te begrijpen. Bij langdurige afhankelijkheden gaat het om relaties tussen woorden of zinnen die ver van elkaar verwijderd kunnen zijn in een tekst, maar toch een significante invloed op elkaar hebben. Bijvoorbeeld, in de zin “De kat die gisteren door de straat liep, zag er erg schuw uit,” is het belangrijk om te weten dat “zag” betrekking heeft op “de kat” en niet op een ander subject dat moge verschijnen binnen de zin.
Een van de belangrijkste ontwikkelingen om dergelijke langdurige afhankelijkheden te verwerken, is de introductie van Transformer-architecturen, zoals beschreven in het baanbrekende artikel “Attention is All You Need” van Vaswani et al. (2017). Deze architectuur maakt gebruik van een mechanisme genaamd “self-attention” (of “scaled dot-product attention”) om dynamisch de relatie tussen alle woorden in een zin te beoordelen, ongeacht hun afstand van elkaar.
Marc’Aurelio Ranzato en anderen van Facebook AI Research toonden ook aan dat LSTM’s (Long Short-Term Memory netwerken) en GRU’s (Gated Recurrent Units) tot op zekere hoogte langdurige afhankelijkheden kunnen hanteren door gebruik te maken van speciale geheugencompartementen die belangrijke informatie over tijd kunnen behouden (Hochreiter & Schmidhuber, 1997; Cho et al., 2014).
Hier zijn enkele kernconcepten en voorbeelden om te illustreren hoe LLM’s met langdurige afhankelijkheden omgaan:
1. Self-Attention Mechanisme:
Het self-attention mechanisme stelt elk woord in staat om niet alleen naar de andere woorden in de zin maar ook naar zichzelf te “kijken”. Dit mechanisme berekent aandachtsscores die aangeven hoe belangrijk elk woord is in de context van een ander woord. Hierdoor kan het model relevante informatie oppikken die ver van elkaar verwijderd is. Bijvoorbeeld in de zin: “De hond rende weg toen hij een luide knal hoorde, die uit de richting van het park kwam.” Het self-attention mechanisme helpt om “knal” te verbinden met “hoorde” en “hond” met “rende weg”.1. Positional Encoding:
Om ervoor te zorgen dat de volgorde van de woorden behouden blijft, voegen Transformers positional encodings toe aan de woorden. Deze encodings geven informatie over de positie van de woorden in de zin en helpen het model om de volgorde van de woorden beter te begrijpen, wat cruciaal is voor het begrijpen van afhankelijkheden tussen woorden.1. Vooruit- en terugwaarts doorgedachten:
In plaats van alleen maar vooruit of achteruit door een tekst te gaan, maken bidirectionele modellen zoals BERT (Bidirectional Encoder Representations from Transformers) gebruik van beide richtingen. Hierdoor kan het model context van zowel voor- als achterliggende woorden benutten, wat cruciaal is voor het begrijpen van langdurige afhankelijkheden.1. Context-vensters:
Sommige technieken gebruiken context-vensters die besloten hoe breed de reikwijdte van de context zou moeten zijn, hoewel de meeste moderne architecturen zoals Transformers deze beperking niet meer hebben.Het is deze combinatie van technologieën die LLM’s in staat stelt om met een hoge mate van precisie en begrip naar teksten te kijken, rekening houdend met zelfs de meest subtiele en ver verwijderde afhankelijkheden.
Bronnen:
1. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30.
2. Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780.
3. Cho, K., van Merrienboer, B., Gulcehre, C., Bahdanau, D., Bougares, F., Schwenk, H., & Bengio, Y. (2014). Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. ArXiv preprint arXiv:1406.1078.
4. Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. ArXiv preprint arXiv:1810.04805.