Het beheer van talen met weinig hulpmiddelen door Large Language Models (LLM’s) zoals GPT-3 en GPT-4 vormt een intrigerende uitdaging in het veld van natuurlijke taalverwerking (Natural Language Processing, NLP). Ondanks de aanzienlijke vooruitgang in NLP, blijft het effectief omgaan met talen met beperkte middelen – talen waarvoor weinig digitale tekstdata beschikbaar is – problematisch. LLM’s gebruiken verschillende methoden en strategieën om deze uitdaging aan te pakken.
Een belangrijke strategie is transfer learning. Dit houdt in dat een model eerst wordt getraind op een rijke dataset van een of meerdere talen met uitgebreide middelen, zoals het Engels, voordat het wordt aangepast aan een taal met weinig middelen. Door deze methode kan het model de reeds verworven kennis en vaardigheden toepassen op de doeltaal. Bijvoorbeeld, een model dat goed presteert in het Engels kan profiteren wanneer het moet werken met een taal als Yoruba door structurele en syntactische inzichten toe te passen die gedeeld worden tussen de talen. (Bron: Peters, M., et al. (2019). “To Tune or Not to Tune? Adapting Pretrained Representations to Diverse Tasks.” arXiv preprint arXiv:1903.05987.).
Daarnaast is data-augmentatie een veelgebruikte techniek. Hierbij worden bestaande datasets kunstmatig uitgebreid. Dit kan door middel van het genereren van synoniemen, parafraseren van zinnen of door gebruik te maken van back-translation (het vertalen van zinnen naar een andere taal en vervolgens weer terug). Hierdoor kan een relatief kleine dataset worden vergroot, wat het model helpt om robuuster te worden. (Bron: Wei, J., & Zou, K. (2019). “EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks.” arXiv preprint arXiv:1901.11196.).
Een ander voorbeeld is cross-linguale embeddings. Hierbij worden woorden in verschillende talen in één gemeenschappelijke vectorruimte geplaatst. Dit maakt het mogelijk voor het model om kennis tussen talen over te dragen, wat vooral nuttig is voor talen met weinig middelen. Bijvoorbeeld, als een model weet dat het Franse woord “chat” overeenkomt met het Engelse woord “cat”, kan het deze kennis toepassen op andere minder gedokumenteerde talen waarbij woordbetekenissen overeenkomen. (Bron: Ruder, S., Vulić, I., & Søgaard, A. (2019). “A Survey of Cross-lingual Word Embedding Models.” Journal of Artificial Intelligence Research.).
Multilingual training is nog een andere benadering waarin meerdere talen tegelijkertijd worden getraind. Dit zorgt ervoor dat LLM’s onderlinge patronen en woordenschat tussen talen ontdekken en benutten. Gecombineerd met meertalige datasets, zoals de open-sourced dataset van de European Parliament Proceedings Parallel Corpus (EuroParl), kan dit de precisie en reikwijdte van modellen voor talen met beperkte middelen aanzienlijk verbeteren. (Bron: Tiedemann, J. (2012). “Parallel Data, Tools and Interfaces in OPUS.” In Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC’12).).
Ten slotte is er ook de zogenoemde unsupervised learning benadering, waarbij modellen leren zonder gelabelde data. Modellen zoals BERT en GPT-3 gebruiken unsupervised learning om zichzelf te trainen op grote volumes ongeannoteerde tekstdata. Dit kan bijzonder nuttig zijn voor talen met weinig middelen, omdat het niet afhankelijk is van dure en tijdrovende annotatieprocessen. (Bron: Devlin, J., et al. (2018). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” arXiv preprint arXiv:1810.04805.).
Door deze en andere methoden toe te passen, kunnen LLM’s effectiever omgaan met talen die traditioneel ondervertegenwoordigd zijn in digitale formaten, wat het potentieel voor inclusieve en brede toepassing van taalmodellen in diverse linguïstische contexten vergroot.