Dino Geek essaye de t'aider

Quels sont les jeux de données couramment utilisés pour entraîner les LLMs ?


Les modèles de langage large (LLM) comme GPT-3, BERT, et leurs semblables, nécessitent des jeux de données massifs pour leur entraînement. Ces jeux de données sont souvent composés de textes en provenance de différentes sources afin de capturer une diversité de styles, de sujets et de langages. Voici une présentation de certains des jeux de données les plus couramment utilisés pour entraîner ces modèles de langage.

1. Common Crawl :

Common Crawl est une archive massive de pages web collectées régulièrement depuis 2008. Il s’agit d’une source primordiale de données pour l’entraînement de nombreux modèles de langage. Les données sont brutes et doivent souvent être filtrées et nettoyées pour éliminer les doublons, les contenus non textuels, et autres bruits.

Source : [Common Crawl](https://commoncrawl.org/)

1. BooksCorpus :

BooksCorpus est un ensemble de données constitué de milliers de livres en anglais. Ce jeu de données est particulièrement précieux parce qu’il offre des textes cohérents et de longue durée, ce qui aide les modèles à comprendre le contexte et à générer des textes plus fluides et cohérents.

Source : Zhu, Y., Kiros, R., Zemel, R., Salakhutdinov, R., Urtasun, R., Torralba, A., & Fidler, S. (2015). Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books. arXiv preprint arXiv:1506.06724.

1. Wikipedia :

L’ensemble des articles de Wikipédia est régulièrement utilisé pour l’entraînement des modèles de langage, grâce à la vaste gamme de sujets couvert, ainsi qu’à la relative qualité et la vérifiabilité de son contenu. Wikipédia est souvent utilisé en combinaison avec d’autres sources pour créer un corpus plus diversifié.

Source : Wikipédia (https://dumps.wikimedia.org/)

1. Gigaword :

Gigaword est une vaste collection de textes journalistiques provenant de nombreuses agences de presse telles que l’Agence France-Presse, Associated Press, et The New York Times. Ce jeu de données se concentre principalement sur des articles de nouvelles, offrant ainsi un langage plus formel et des informations factuelles.

Source : Graff, D., & Cieri, C. (2003). English Gigaword. Linguistic Data Consortium, Philadelphia.

1. OpenWebText :

OpenWebText est un projet visant à reproduire la qualité et la diversité du célèbre jeu de données WebText utilisé par OpenAI pour entraîner GPT-2, mais avec des sources ouvertes. Les données sont collectées à partir des liens les plus votés sur Reddit, fournissant ainsi un large éventail de contenus.

Source : [OpenWebText](https://github.com/skolakoda/openwebtext)

1. C4 (Colossal Clean Crawled Corpus) :

C4 est une version nettoyée et filtrée de Common Crawl. Cette base de données est spécialement structurée pour faciliter l’entraînement des modèles de langage, en éliminant les contenus de basse qualité ou non textuels.

Source : Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., … & Liu, P. J. (2019). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. arXiv preprint arXiv:1910.10683.

Ces jeux de données ne sont qu’une partie des ressources employées pour l’entraînement des LLMs. Chaque jeu de données apporte sa propre valeur en termes de diversité, de qualité, et de type de texte, permettant ainsi aux modèles de langage d’améliorer leur compréhension et leur génération de texte.


Générez simplement des articles pour optimiser votre SEO
Générez simplement des articles pour optimiser votre SEO





DinoGeek propose des articles simples sur des technologies complexes

Vous souhaitez être cité dans cet article ? Rien de plus simple, contactez-nous à dino@eiki.fr

CSS | NodeJS | DNS | DMARC | MAPI | NNTP | htaccess | PHP | HTTPS | Drupal | WEB3 | LLM | Wordpress | TLD | Nom de Domaine | IMAP | TCP | NFT | MariaDB | FTP | Zigbee | NMAP | SNMP | SEO | E-Mail | LXC | HTTP | MangoDB | SFTP | RAG | SSH | HTML | ChatGPT API | OSPF | JavaScript | Docker | OpenVZ | ChatGPT | VPS | ZIMBRA | SPF | UDP | Joomla | IPV6 | BGP | Django | Reactjs | DKIM | VMWare | RSYNC | Python | TFTP | Webdav | FAAS | Apache | IPV4 | LDAP | POP3 | SMTP

| Whispers of love (API) | Déclaration d'Amour |






Mentions Légales / Conditions Générales d'Utilisation