Lexicale dubbelzinnigheid verwijst naar het verschijnsel waarbij een woord of uitdrukking meerdere betekenissen heeft. Voor de taalverwerkingssystemen, zoals Language Learning Models (LLM’s), vormt dit een bijzondere uitdaging.
LLM’s zoals GPT-3, BERT en hun opvolgers gaan om met lexicale dubbelzinnigheid door gebruik te maken van contextuele informatie om de juiste betekenis van een woord in een bepaalde zin te identificeren. Dit gebeurt meestal in een paar stappen, wat ik hieronder zal uitleggen, met enkele voorbeelden ter verduidelijking.
1. Contextanalyse: LLM’s maken gebruik van de zinnen en woorden rondom het dubbelzinnige woord om te bepalen wat de meest waarschijnlijke betekenis is. Bijvoorbeeld, het woord “bank” kan zowel verwijzen naar een financiële instelling als naar een zitmeubel. In de zin “Ik ga geld storten bij de bank” is de context duidelijk financieel, wat de juiste interpretatie van “bank” als een financiële instelling aangeeft. Bron: Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. ArXiv.
1. Vooraf getrainde vectors: Moderne LLM’s zoals BERT en GPT-3 worden getraind op enorme hoeveelheden tekstdata. Tijdens deze training leren ze woorden te vertegenwoordigen als vectors in een hoge-dimensionale ruimte. Deze vectors zijn zo getraind dat woorden die in vergelijkbare contexten voorkomen, ook nabij elkaar liggen in de vectorruimte. Voor het woord “bank” heeft de context van de omringende woorden invloed op de vector die voor “bank” wordt gebruikt, wat helpt om de correcte betekenis te identificeren. Bron: Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. ArXiv.
1. Transformer-architectuur: De transformer-architectuur, waaronder zowel GPT-3 als BERT vallen, gebruikt zelf-attentiemechanismen om de relaties tussen woorden in een zin te analyseren. Dit helpt het model te begrijpen welke woorden meer gewicht moeten krijgen bij de interpretatie. Voor de zin “De coach zette de speler op de bank,” weet het model door zelf-attentie dat “coach” en “speler” gerelateerd zijn aan sport, en dus is “bank” hier waarschijnlijk een zitmeubel en niet een financiële instelling. Bron: Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention is All You Need. ArXiv.
1. Fijnafstelling (fine-tuning): Na de fase van algemene pre-training worden LLM’s vaak verder fijngesteld voor specifieke taken of domeinen. Hierdoor kunnen ze beter omgaan met het jargon en de specifieke betekenissen van woorden binnen bepaalde domeinen, wat helpt om de lexicale dubbelzinnigheid in die domeinen te verminderen. Bijvoorbeeld, binnen de medische context zal de betekenis van “MRI” direct aan de hand van gespecialiseerde medische teksten worden geïnterpreteerd. Bron: Lee, J., Yoon, W., Kim, S., Kim, D., Kim, S., So, C. H., & Kang, J. (2019). BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics.
In samenvatting gebruiken LLM’s contextuele informatie, vectorrepresentaties, zelf-attentiemechanismen en domeinspecifieke fijnafstelling om effectief om te gaan met lexicale dubbelzinnigheden. Hierdoor kunnen ze vrij nauwkeurige en relevante interpretaties geven van woorden met meerdere betekenissen, afhankelijk van de context waarin ze voorkomen.