Большой датасет с временными рядами + блокнот с заготовкой
Давно не писал в канал - завалило рабочими задачами, делаем много классных штук, скоро начну про них рассказывать. А сегодня подготовил для вас максимально полезный пост, достойный ваших сохраненок.
Короче, я как-то писал, что занимаюсь ресерчем в области time series processing. И в своих исследованиях я наткнулся на чуть ли не самый большой датасет с временными рядами для тестирования моделей классификации, кластеризации, прогнозирования, интерполяции и других штук - UCR Time Series Classification Archive. Теперь кручу его со всех сторон.
Надо сказать, что раздобыть этот датасет не так-то просто - авторы знатные шутники. Сначала ты должен найти их
сайт. Затем скачать
архив. Потом открыть
pdf-ку с описанием. Затем дочитать ее до конца, чтобы понять, какой пароль от архива. А чтобы узнать пароль от архива, ты должен найти в интернете
статью одного из авторов и найти там фразу «every item that we ... » - и вот продолжение этой фразы и является паролем
🤡
В общем, ребята - большие красавчики, но я все же сэкономлю вам немного времени. Пароль от архива -
attempt to classify (в одно слово).
А чтобы вам было еще полезней - сделал для вас
блокнот в Google Colab, где показал, как работать с этим датасетом. Там, кстати, много прикольных фишек:
- Как с помощью Python разархивировать архив с паролем
- Как запустить функцию в отдельном потоке, чтобы она работала в фоновом режиме
- Несколько фокусов работы с Matplotlib
Если вам такой контент полезен - поставьте реакцию! А когда наберем 250 разных реакций, я выложу еще один блокнот, где покажу - как на этом датасете можно сравнивать эффективность моделей для обработки временных рядов!