Welche Datensätze werden häufig zum Trainieren von LLMs verwendet

Große Sprachmodelle (LLMs) benötigen immense Mengen an Textdaten, um effektiv trainiert zu werden. Hier sind einige der häufig verwendeten Datensätze:

1. Common Crawl: Einer der umfassendsten und meistverwendeten Datensätze, der aus riesigen Mengen an Webdaten besteht, die regelmäßig von Millionen von Webseiten gesammelt werden. Diese Daten bieten eine vielfältige und reichhaltige Textquelle, die eine Grundlage für die Sprachmodellierung darstellt.

2. Wikipedia: Die Wikipedia-Datenbank ist eine weitere bedeutende Ressource. Sie enthält Millionen von Artikeln in verschiedenen Sprachen und reicht damit für eine breite Abdeckung von Themenbereichen und eine hohe Sprachqualität.

3. BooksCorpus: Der BooksCorpus-Datensatz besteht aus einer Sammlung von über 10.000 ungekennzeichneten Büchern. Diese Texte bieten narrative Strukturen und komplexe Diskurse, die für das Training von Modellen nützlich sein können.

4. OpenWebText: Ein Alternativsatz zu Common Crawl, der darauf abzielt, hochwertige Daten aus Webseiten zu extrahieren, die sich auf seriöse und sorgfältige Kuratierung konzentrieren. Das Projekt wurde ins Leben gerufen, um besser strukturierte und qualitativ hochwertigere Daten zur Verfügung zu stellen.

5. Gutenberg Projekt: Dieser Datensatz umfasst eine umfangreiche Sammlung öffentlich zugänglicher und gemeinfreier Bücher. Das Projekt Gutenberg bietet eine immense Sammlung klassischer Literatur und wissenschaftlicher Werke, die wertvolles Trainingsmaterial darstellen.

6. Scientific Papers Datasets: Datenbanken wie PubMed und ArXiv bieten Forschungsartikel und wissenschaftliche Papiere, die oft für spezialisiertere Modelle, etwa im Bereich der medizinischen oder technischen Textverarbeitung, genutzt werden.

7. Conversation Datasets: Ein Beispiel hierfür ist der “OpenSubtitles” Datensatz, der Untertitel von Filmen und Fernsehshows enthält. Diese Daten sind besonders nützlich für das Training von Modellen für Gesprächsanwendungen und die natürliche Sprachgenerierung.

8. Reddit: Die Reddit-Datenbank wird häufig genutzt, um Modelle mit informellen und oft dialogischen Sprachmustern zu versorgen. Reddit bietet ungefilterte und diversifizierte Diskussionen über eine Vielzahl von Themen.

Ein informatives Beispiel ist das GPT-3. Das Modell von OpenAI wurde mit einer Kombination dieser und weiterer Datensätze trainiert. Unter anderem wurden Daten aus Common Crawl, Wikipedia, Bücher und viele andere Quelldaten herangezogen, um eine möglichst umfassende Textbasis zu schaffen (Brown et al., 2020).

Hier sind die Quellen, die zur Konstruktion dieser Antwort verwendet wurden:

- Common Crawl: https://commoncrawl.org/
- Wikipedia: https://en.wikipedia.org/wiki/Wikipedia:Database_download
- BooksCorpus: Zhu, Y., Kiros, R., Zemel, R., Salakhutdinov, R., Urtasun, R., Torralba, A., & Fidler, S. (2015). Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books.
- OpenWebText: https://skylion007.github.io/OpenWebTextCorpus/
- Gutenberg Projekt: https://www.gutenberg.org/
- PubMed: https://pubmed.ncbi.nlm.nih.gov/
- ArXiv: https://arxiv.org/
- OpenSubtitles: Lison, P., & Tiedemann, J. (2016). OpenSubtitles2016: Extracting Large Parallel Corpora from Movie and TV Subtitles.
- Reddit: Baumgartner J., Zannettou S., Keegan B., Squire M., & Blackburn J. (2020) The Pushshift Reddit Dataset.

Diese Quellen ermöglichen es Sprachmodellen, auf eine facettenreiche und umfangreiche Textbasis zurückzugreifen, was die Perfektionierung und Effizienz solcher Modelle deutlich steigert.

Welche Datensätze werden häufig zum Trainieren von LLMs verwendet?