Кстати, пока я пост писала, там HuggingFace треснул и упал:
HF выложили датасет на 15 триллионов токенов — FineWeb
🍷— отфильтрованный моноязычный CommonCrawl, ускоряющий сходимость моделей. Совпадает по размеру, собственно, тренировочным сетом Llama 3, хотя прямо это не говорится.
🟣44 терабайта текстов, однако!
🟣https://huggingface.co/datasets/HuggingFaceFW/fineweb