Woord- en zininsluitingen zijn fundamentele technieken die gebruikt worden in large language models (LLM’s) om tekstuele gegevens om te zetten in numerieke representaties die door een model kunnen worden verwerkt. Deze technieken zijn essentieel voor de prestaties van LLM’s bij taken zoals tekstclassificatie, vertaaldiensten, en generatieve tekstmodellen.
Woordinbeddings, zoals Word2Vec, GloVe, en FastText, transformeren woorden in continue vectorruimten, waarbij woorden die in soortgelijke contexten voorkomen vergelijkbare vectorrepresentaties hebben. Deze representaties maken het mogelijk dat semantisch vergelijkbare woorden dicht bij elkaar liggen in de vectorruimte. Bijvoorbeeld, in een goed getrainde embedding-ruimte zouden de vectoren voor “koning” en “koningin” dicht bij elkaar liggen. Dit wordt bereikt door het gebruik van technieken zoals het trainen van neurale netwerken om contextuele informatie op te nemen uit grote tekstcorpora.
Brong:
- Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
- Pennington, J., Socher, R., & Manning, C. D. (2014). Glove: Global Vectors for Word Representation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP).
Zininsluitingen gaan een stap verder door hele zinnen, in plaats van enkel losse woorden, te representeren met vectoren. Dit is belangrijk voor taken waarbij de context van een hele zin, in plaats van individuele woorden, van belang is. Sent2Vec en Universal Sentence Encoder zijn voorbeelden van methoden die zinnen insluiten. Ze zorgen ervoor dat semantisch vergelijkbare zinnen dicht bij elkaar in de vectorruimte geplaatst worden. Zo zou bijvoorbeeld de zin “Het weer is vandaag mooi” een soortgelijke vector hebben als “Vandaag is het weer prachtig”.
Brong:
- Pagliardini, M., Gupta, P., & Jaggi, M. (2017). Unsupervised Learning of Sentence Embeddings using Compositional n-Gram Features. arXiv preprint arXiv:1703.02507.
- Cer, D., Yang, Y., Kong, S. Y., Hua, N., Limtiaco, N., St. John, R., … & Kurzweil, R. (2018). Universal Sentence Encoder. arXiv preprint arXiv:1803.11175.
Large Language Models zoals GPT-3 en BERT maken intensief gebruik van zowel woord- als zininsluitingen. Voor GPT-3 wordt bijvoorbeeld gebruik gemaakt van een tokenization-proces waarbij zowel woorden als subwoorden worden ingesloten in hoge-dimensionale vectoren. Deze tokenization zorgt ervoor dat het model zowel de syntactische als semantische relaties tussen woorden effectief kan verwerken. BERT, aan de andere kant, maakt gebruik van zinsinsluitingen door continual pretraining en fined-tuning, waarbij zinnen in context worden geplaatst en hun relaties tot andere zinnen en woorden worden gemodelleerd.
Brong:
- Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is All you Need. In Advances in Neural Information Processing Systems.
- Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., … & Amodei, D. (2020). Language Models are Few-Shot Learners. arXiv preprint arXiv:2005.14165.
Door deze technieken kunnen LLM’s niet alleen woorden en zinnen begrijpen, maar ook contextueel complexe taken uitvoeren en zelfs mensachtige tekst genereren, wat hun brede inzetbaarheid en indrukwekkende prestaties verklaart.