Regularisatietechnieken voor Language Model (LM) en met name voor Large Language Models (LLM’s) zijn essentieel om overfitting en andere problemen die kunnen optreden tijdens het trainingsproces te voorkomen. Overfitting treedt op wanneer een model te nauwkeurig leert van de trainingsdata, inclusief de ruis en uitzonderingen, wat leidt tot slechte prestaties op ongeziene data. Hier zullen we enkele van de meest gebruikte regularisatietechnieken bespreken, voorzien van voorbeelden en betrouwbare bronnen.
1. Dropout: Dit is een populaire techniek waarbij tijdens het trainingsproces willekeurig een aantal neuronen worden ‘uitgeschakeld’ of genegeerd in iedere update naar het model (Srivastava et al., 2014). Dit voorkomt dat neuronen te afhankelijk worden van specifieke andere neuronen, wat helpt overfitting te verminderen. Voorbeeld: In de context van LLM’s zoals BERT of GPT, kan dropout worden toegepast op de volledig verbonden lagen om de generalisatiewaarde van het model te verbeteren.
1. Early Stopping: Dit houdt in dat het trainingsproces wordt gestopt voordat het model begint te overfitten op de trainingsset (Prechelt, 1998). Tijdens de training wordt de prestatie op een validatieset bewaakt en zodra deze prestatie begint te verslechteren, wordt de training gestopt. Voorbeeld: Bij het trainen van GPT-3 kan men early stopping gebruiken door de prestatie op een validatieset te monitoren en de training te stoppen als de validatiefout niet meer afneemt.
1. L1 en L2 Regularisatie: Beide technieken voegen een strafterm toe aan de verliesfunctie van het model om te voorkomen dat het model te complex wordt (Ng, 2004). L1-regularisatie (lasso) schaalt de som van de absolute waarden van de gewichten, terwijl L2-regularisatie (ridge) de som van de kwadraten van de gewichten schaalt. Voorbeeld: In transformers zoals BERT kan L2-regularisatie worden gebruikt op de gewichten van de volledig verbonden lagen om ervoor te zorgen dat deze gewichten niet te groot worden.
1. Data-Augmentatie: Dit verhoogt de hoeveelheid trainingsdata door de bestaande dataset synthetisch uit te breiden (Shorten and Khoshgoftaar, 2019). Dit kan onder andere worden gedaan door het toevoegen van ruis, het vertalen van zinnen naar en vanuit andere talen, of het herformuleren van zinnen. Voorbeeld: Bij het trainen van een model zoals T5 worden synthetische voorbeelden gecreëerd door bestaande zinnen te herformuleren om de robuustheid van het model te verhogen.
1. Batch Normalization: Deze techniek normaliseert de output van een vorige activatielaag door het nemen van de batchmean en -variance (Ioffe and Szegedy, 2015). Dit stabiliseert en versnelt het trainingsproces. Voorbeeld: In generative pre-training transformers zoals GPT, kan batch normalization helpen om de stabiliteit van de training te verbeteren en de convergentiesnelheid te verhogen.
1. Label Smoothing: Dit is een techniek waarbij de harde labels van de trainingsdata worden aangepast door een beetje onzekerheid toe te voegen (Szegedy et al., 2016). Dit zorgt ervoor dat modellen minder zeker zijn over hun voorspellingen en hierdoor minder snel overfitten. Voorbeeld: Bij BERT kan label smoothing worden toegepast op de token classificatielaag om te zorgen dat het model beter generaliseert.
Bronnen:
- Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2014). Dropout: A simple way to prevent neural networks from overfitting. Journal of Machine Learning Research, 15, 1929-1958.
- Prechelt, L. (1998). Early Stopping – But When?. Neural Networks: Tricks of the Trade. Springer.
- Ng, A. Y. (2004). Feature selection, L1 vs. L2 regularization, and rotational invariance. Proceedings of the twenty-first international conference on Machine learning.
- Shorten, C., & Khoshgoftaar, T. M. (2019). A survey on Image Data Augmentation for Deep Learning. Journal of Big Data, 6, 60.
- Ioffe, S., & Szegedy, C. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate shift. International Conference on Machine Learning (ICML).
- Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., & Wojna, Z. (2016). Rethinking the Inception Architecture for Computer Vision. IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Door deze regularisatietechnieken toe te passen, kunnen modellen robuuster worden getraind en beter generaliseren naar ongeziene data.