` willen verwijderen, evenals advertenties of irrelevante links.
Bron: Russell, M.A. (2019). Mining the Social Web. O’Reilly.
- 3. Tokenisatie:
Tokenisatie is het proces van het splitsen van tekst in kleinere eenheden, zoals woorden of subwoorden, die door het model kunnen worden verwerkt.
Voorbeeld: De zin “De kat zit op de mat” wordt getokeniseerd in [“De”, “kat”, “zit”, “op”, “de”, “mat”].
Bron: Manning, C.D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.
- 4. Normalisatie:
Normalisatie omvat stappen zoals het omzetten van tekst naar kleine letters en het verwijderen van leestekens om consistentie te waarborgen.
Voorbeeld: “Gisteren won ik $100!” wordt genormaliseerd naar “gisteren won ik 100”.
Bron: Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python. O’Reilly.
- 5. Stopwoorden verwijderen:
Stopwoorden zoals “de”, “het”, “een” voegen vaak weinig waarde toe en kunnen worden verwijderd om de prestaties van het model te verbeteren.
Voorbeeld: In de zin “De kat zit op de mat” worden “De” en “de” als stopwoorden verwijderd.
Bron: nltk.corpus.stopwords in de NLTK-bibliotheek.
- 6. Stemming en Lemmatization:
Dit betreft het terugbrengen van woorden naar hun wortelvorm (stammen) of hun linguïstische basisvorm (lemmatisering).
Voorbeeld: “Lopende” wordt teruggebracht naar “loop” door stemming, en “gingen” naar “gaan” door lemmatization.
Bron: Porter, M.F. (1980). An algorithm for suffix stripping.
- 7. Vectorisatie:
Om tekstdata bruikbaar te maken voor modellen, moet deze worden omgezet in numerieke vorm door middel van technieken zoals Bag-of-Words, TF-IDF of Word Embeddings.
Voorbeeld: “De kat zit op de mat” kan worden omgezet in een vector zoals bijvoorbeeld [1, 0, 1, 1, 0, 1] afhankelijk van de gebruikte vectorisatietechniek.
Bron: Mikolov, T., et al. (2013). Efficient Estimation of Word Representations in Vector Space.
- 8. Dataset Augmentatie:
Bij beperkte datasets kan data-augmentatie helpen om de variëteit en omvang van de data te vergroten zonder nieuwe data te verzamelen.
Voorbeeld: Parafraseren van zinnen, synoniemen vervangen of machinevertalingen gebruiken.
Bron: Shorten, C., & Khoshgoftaar, T.M. (2019). A survey on Image Data Augmentation for Deep Learning.
- 9. Gespecialiseerde Voorverwerking:
Afhankelijk van het specifieke gebruiksdoel, kan gespecialiseerde voorverwerking noodzakelijk zijn, zoals sentimentanalyse, entiteitsherkenning, of syntactische parsing.
Voorbeeld: Voor sentimentanalyse kan het nuttig zijn om woorden in te delen in positieve en negatieve categorieën.
Bron: Liu, B. (2015). Sentiment Analysis: Mining Opinions, Sentiments, and Emotions.
- Gevolgtrekking
Gegevensvoorverwerking is een cruciale stap bij de ontwikkeling van LLM’s en kan een significante impact hebben op de prestaties van het model. Het combineren van meerdere preprocessing technieken kan leiden tot betere resultaten en meer robuuste modellen. De gekozen technieken moeten echter altijd worden afgestemd op de specifieke kenmerken en doelen van het project.
Bronnen:
1. Jurafsky, D., & Martin, J.H. (2021). Speech and Language Processing. Prentice Hall.
2. Russell, M.A. (2019). Mining the Social Web. O’Reilly.
3. Manning, C.D., Raghavan, P., & Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press.
4. Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python. O’Reilly.
5. Porter, M.F. (1980). An algorithm for suffix stripping.
6. Mikolov, T., et al. (2013). Efficient Estimation of Word Representations in Vector Space.
7. Shorten, C., & Khoshgoftaar, T.M. (2019). A survey on Image Data Augmentation for Deep Learning.
8. Liu, B. (2015). Sentiment Analysis: Mining Opinions, Sentiments, and Emotions.