Los conjuntos de datos comúnmente utilizados para entrenar Modelos de Lenguaje Largo (LLMs) son extensos y variados, reflejando la necesidad de diversidad y amplitud en los datos para lograr un rendimiento superior y generalizable. Estos conjuntos de datos son seleccionados cuidadosamente para incluir una amplia gama de texto que abarque múltiples dominios y estilos de lenguaje. A continuación, se presentan algunos de los conjuntos de datos más utilizados, junto con ejemplos y las fuentes de donde provienen estos datos.
1. Common Crawl:
- Descripción: Common Crawl es un gigantesco archivo de datos web que se actualiza periódicamente y proporciona un vasto conjunto de datos de texto. Contiene información extraída de miles de millones de páginas web, cubriendo una amplia gama de temas y estilos de escritura.
- Ejemplo: Un LLM entrenado con Common Crawl puede generar texto sobre casi cualquier tema desde la astronomía hasta la jardinería.
- Fuente: [Common Crawl](https://commoncrawl.org)
2. Wikipedia:
- Descripción: Wikipedia es una enciclopedia libre, colaborativa y de gran popularidad que contiene artículos sobre una vastísima cantidad de temas en múltiples idiomas.
- Ejemplo: Artículos enciclopédicos en Wikipedia son utilizados para que los LLMs puedan responder de manera exacta y directa sobre hechos en diversas materias.
- Fuente: [Wikipedia](https://www.wikipedia.org)
3. BooksCorpus:
- Descripción: BooksCorpus es una recopilación de más de 11,000 libros electrónicos que cubren una variedad de géneros y estilos. Este conjunto de datos es especialmente útil para captar la estructura narrativa y el contenido complejo.
- Ejemplo: Los modelos entrenados con BooksCorpus pueden generar novelas de ficción o secuencias narrativas coherentes.
- Fuente: Google Books
4. OpenWebText:
- Descripción: Este es un conjunto de datos que busca replicar la calidad de los artículos disponibles en Open Access de Reddit, consistiendo en enlaces altamente votados.
- Ejemplo: Esto permite que los LLMs generen contenido en blog o respuestas a preguntas de foros de una manera que se alineen con las conversaciones en línea populares.
- Fuente: [OpenWebText](https://skylion007.github.io/OpenWebTextCorpus)
5. English Wikipedia and BooksCorpus Combined:
- Descripción: Esta combinación proporciona una mezcla robusta de lenguaje enciclopédico y narrativo, permitiendo que los LLMs capten tanto el estilo factual como el narrativo.
- Ejemplo: Modelos basados en esta combinación pueden escribir tanto ensayos informativos como narrativas de aventuras.
- Fuente: Dados por los conjuntos combinados de Wikipedia y BooksCorpus.
6. C4 (Colossal Clean Crawled Corpus):
- Descripción: Este es un corpus enorme, filtrado y limpiado derivado de un rastreo web común, utilizado para entrenar modelos como T5 de Google.
- Ejemplo: Los LLMs entrenados con C4 pueden realizar tareas variadas desde completación de texto hasta respuesta precisa de preguntas.
- Fuente: [TensorFlow Datasets](https://www.tensorflow.org/datasets)
7. Project Gutenberg:
- Descripción: Una de las colecciones más antiguas y extensas de libros de dominio público digitalizados. Contiene obras literarias clásicas de diversos géneros.
- Ejemplo: Modelos pueden aprender el estilo de escritura de notables autores clásicos, posibilitando la generación de texto literario.
- Fuente: [Project Gutenberg](https://www.gutenberg.org)
8. News Articles:
- Descripción: Fuentes de artículos de noticias incluyen acceso a publicaciones generalizadas, ofreciendo una variedad de informes y editoriales.
- Ejemplo: Modelos entrenados con estos datos pueden redactar artículos de noticias de manera coherente y actualizada sobre eventos actuales.
- Fuente: Diversas agencias de noticias y recopilaciones como News Crawl.
Estos conjuntos de datos no solo proporcionan diversidad de contenido sino que también ayudan a los modelos a ser más versátiles y adaptables en una variedad de aplicaciones lingüísticas. Los métodos actuales suelen combinar múltiples conjuntos de datos para maximizar la utilidad y robustez del entrenamiento de esos modelos.