В продолжение размышлений про то как публикуют открытые данные, я в какие-то из ближайших дней напишу про то как публикуют дата продукты и их качественные отличия от открытых данных (спойлер - большая часть дата продуктов коммерческие и в открытый доступ публикуют данные с ограничениями).
А пока в качестве одного из упоминаемых там материалов, проект
OpenCellID [1]. База геолокаций сотовых вышек по всему миру, с возможностью выгрузки данных в по всему миру или отдельной стране.
В статистике упоминают более 30 миллионов вышек, а также можно загружать туда информацию с помощью их API [2]. За проектом стоит компания UnwiredLabs предоставляющая сервисы геолокации [3]
В чем особенность проекта так в том что он начинался как сообщество у которого появилось много контрибьюторов. Изначально данные в нём тоже были открыты и удобны для выгрузки, можно прочитать об этом в статье на Хабр в 2014 году [4], а сейчас данные не только не скачать без регистрации и API ключа, но и не более 2-х файлов в месяц.
Более того, у меня есть слепок данных из этого проекта за 2021 год и когда я сравниваю, например, данные по РФ, со статистикой по РФ на сайте и содержанием дампа на сегодня, то выглядят цифры вот так:
- 1.9 миллионов сотовых вышек РФ в выгрузке за 2021 г.
- 2.2. миллиона сотовых вышек по РФ упоминаются в статистике на 2024 г.
и только 146 тысяч сотовых вышек в выгрузке данных за 2024 г.
На форуме пользователи уже задаются вопросами почему так происходит, но безответно [5].
Ответ, почти наверняка, очевиден, владелец открытого сервиса "портит его" в пользу связанного коммерческого продукта. Так не редко случается в коммерческих дата продуктах изначально основанных на создание открытых данных.
Такое бывает и с опенсорс проектами переходящими в коммерциализацию.
Ссылки:
[1]
https://opencellid.org
[2]
https://wiki.opencellid.org/wiki/API
[3]
https://unwiredlabs.com
[4]
https://habr.com/ru/companies/promwad/articles/223635/
[5]
https://opencellid.org/downloads.php
[6]
https://community.opencellid.org/t/data-vs-statistics-differences/1327
#opendata #dataproducts #data