Ivan Begtin

Channel
Logo of the Telegram channel Ivan Begtin
@begtinPromote
7.98K
subscribers
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff. Founder of Dateno https://dateno.io Telegram @ibegtin Facebook - https://facebook.com/ibegtin Secure contacts ivan@begtin.tech
К вопросу о дата продуктах, реестр каталогов данных Dateno [1] - это как раз один из них, как сайт, и как репозиторий кода [2]. В нём и собственные результаты сбора каталогов так и то что присылали и присылают пользователи.

И если сам Dateno - это продукт с потенциальной монетизацией и доступом по API (кстати не забудьте зарегистрироваться и попробовать API тут dateno.io), то каталог - это датасет в JSON lines, а теперь ещё и в формате parquet, вот ту можно его забрать [3].

Как и у любого дата продукта у него есть метрики качества. Некоторые из них трудно измерить - это полнота, поскольку референсных каталогов теперь нет, Dateno давно уже превосходит по масштабу все аналогичные. Не хвастаюсь, а печалюсь, не с чем сравнить.

Но то что касается постепенного обогащения данных можно измерить. Например, у каждого каталога есть поле status оно может иметь значения active и scheduled. Значение active то что каталог прошёл ручное заполнение и обогащение метаданными, у него у уникального uid'а есть префикс cdi. А есть значение scheduled у него префикс temp и это означает что это скорее всего каталог данных, но не проверенный вручную и не обогащённый метаданными.

Таких временных каталогов данных примерно 60%. Сначала я непроверенные каталоги вёл в отдельном реестре, потом стало понятно что неполнота их метаданных это не повод их не индексировать и они были слиты в единый реестр с чистовыми записями.

При этом часть метаданных автозаполнены даже для таких каталогов. Для некоторых каталогов данных - это название, страна, язык, точки подключения API, тип ПО. Для других незаполнены эти атрибуты и ряд других.

При этом даже для тех каталогов данных которые чистовые может не быть привязки к темам, может не быть тегов, могут быть неуказаны точки подключения API и тд.

Иначе говоря всё это и есть то что надо измерять в метриках качества потому что часть этих атрибутов переходят в фасеты Dateno.

Самые простые метрики качества реестра могут измеряться несколькими достаточно простыми SQL запросами. Чуть более сложные метрики, запросами посложнее и набором правил в коде на Python.

Всё это, конечно, хорошо линкуется с работой над качеством самого индекса Dateno. А пока я могу в очередной раз порекомендовать DuckDB как универсальный инструмент для таких задач.

Ссылки:
[1] https://dateno.io/registry
[2] https://github.com/commondataio/dataportals-registry
[3] https://github.com/commondataio/dataportals-registry/raw/refs/heads/main/data/datasets/full.parquet

#dateno #dataquality #sql #duckdb #metrics #datacatalogs
В рубрике полезных инструментов по автоматизации визуализации данных Visprex [1] визуализация CSV файлов сразу в браузере, без передачи куда либо.

Умеет сразу несколько базовых визуализаций что полезно для небольших дата файлов.

Из минусов - это типы данных они угадывают по полям в CSV, а если бы точно также визуализировали Parquet файлы то типы там были бы уже сразу.

Вообще скажу я в вам автоматизация визуализации данных - это та ещё наука. Её активно решают с помощью LLM в последние годы и скорее всего неплохо получится решить.

Ссылки:
[1] https://github.com/visprex/visprex

#opensource #dataviz #autodataviz
Примерно с апреля 2024 года Минздрав РФ более не публикует открытые данные на своём официальном сайте [1] и сейчас данные также недоступны.

При этом ещё в марте этот раздел был открыт [2] хотя данные и не обновлялись. Например, данные реестра
лекарственных средств не обновлялись с марта 2017 года [3], как и оставшиеся датасеты, их также прекратили обновлять в 2017 году.

Ссылки:
[1] https://minzdrav.gov.ru/opendata
[2] https://web.archive.org/web/20240328094829/https://minzdrav.gov.ru/opendata
[3] https://web.archive.org/web/20240520083814/https://minzdrav.gov.ru/opendata

#opendata #datasets #data #russia #closeddata
Forwarded from 42 секунды
CNBC: Европейские конкуренты Google объединятся для создания нового поискового индекса

– Ecosia и Qwant создадут европейский поисковой индекс
– Для проекта они создадут European Search Perspective
– Каждая компания будет владеть 50% этого предприятия
– В начале 2025 проект планируется запустить во Франции
– Поиск от Qwant ориентирован на конфиденциальность
– Поисковая система Ecosia уделяет внимание экологии
– Ecosia сажает по одному дереву за каждые 50 запросов
– Проект стал возможен благодаря новому закону DMA
– Google обязан делиться данными для обучения модели
– Пока альтернативные системы не создают свои индексы
– Например, Ecosia использует результаты Google и Bing
– На ее бизнес влияет повышение цен на Bing Search API
– Новый поисковой индекс ориентирован на безопасность
– Он будет доступен независимым поисковым системам
– Инфраструктура снизит зависимость ЕС от США и др.
– На Google приходится 90% мирового рынка поиска

@ftsec
Как интересно, а поиск по датасетам и другим цифровым объектам микроразметки они там предусмотрят или это будет чистый веб индекс?
Полезное чтение про данные, технологии и не только:
- All the data can be yours [1] автор пишет про реверс-инжиниринг API. Ха, подержи моё пиво! Я могу рассказать об этом куда больше, а было бы и время то и книжку написать. Но читать про опыт других всегда полезно, всегда есть что-то новое.
- AI protein-prediction tool AlphaFold3 is now open source [2] в Google заопенсорсили AlphaFold3, движок для предсказания структур протеинов с помощью ИИ. Для некоммерческого использования, конечно.
- The Death and Life of Prediction Markets at Google [3] неожиданное и любопытное, про внутренние инструменты предсказаний в Google и, заодно, немало про их внутреннюю культуру.

Ссылки:
[1] https://jero.zone/posts/reverse-engineering-apis
[2] https://www.nature.com/articles/d41586-024-03708-4
[3] https://asteriskmag.com/issues/08/the-death-and-life-of-prediction-markets-at-google

#readings #tech
К вопросу о том как развивается открытый код и открытые данные в мире, я как-то уже упоминал про Registry of Digital Public Goods [1], это по сути, пример систематизации открытого кода донорами которые дают финансирование на открытый код, чаще всего, или, социально ориентированным коммерческим компаниям или технологическим НКО. И тех и тех в мире много, открытого кода тоже много вот собственно в этом реестре их начали вносить в привязке к целям устойчивого развития.

Из всех технологических инициатив связанных с ООН эта наиболее понятная, собственно она сама является открытым стандартом описания проектов [2].

А заодно позволяет оценить насколько эффективно создание ПО на грантовые средства и насколько устойчивы создаваемые проекты. Если присмотреться к тому что там опубликовано, то есть немало проектов созданных по принципу "отчитались и ну его". Иначе говоря код выложен однократно, чтобы соответствовать требованиям гранта.

Но есть и серьёзные проекты. В реестре есть FormSG [3] открытый код по генерации форм, созданный Правительством Сингапура. Там есть CKAN [4] наиболее популярный код для создания порталов открытых данных и ещё много всего.

Что характерно там сейчас 176 проектов, но в реальности их гораздо больше. тут лишь те авторы которых явным образом о себе заявили и прошли верификацию. Причём проекты как от НКО, так и от госорганов. Главное что открытый код и соответствие целям развития.

Можно обратить внимание что из РФ, ожидаемо, ни одного проекта нет. Из Армении есть один, созданный явно на грантовые деньги. Пара проектов из Казахстана, тоже, похоже, грантового происхождения. Из Эстонии там есть X-Road, госпроект ПО по обмену данными, в открытом коде.

В целом это всё очень похоже на модели кооперации НКО и гос-ва в западной модели их поддержки. Гранты раздаются многим, лишь некоторые проекты обретают долгую жизнь и те что обретают переводят в режим кооперации.

Ссылки:
[1] https://www.digitalpublicgoods.net/registry
[2] https://www.digitalpublicgoods.net/standard
[3] https://www.digitalpublicgoods.net/r/formsg
[4] https://www.digitalpublicgoods.net/r/ckan

#opensource #opendata #un
В продолжение размышлений про то как публикуют открытые данные, я в какие-то из ближайших дней напишу про то как публикуют дата продукты и их качественные отличия от открытых данных (спойлер - большая часть дата продуктов коммерческие и в открытый доступ публикуют данные с ограничениями).

А пока в качестве одного из упоминаемых там материалов, проект OpenCellID [1]. База геолокаций сотовых вышек по всему миру, с возможностью выгрузки данных в по всему миру или отдельной стране.

В статистике упоминают более 30 миллионов вышек, а также можно загружать туда информацию с помощью их API [2]. За проектом стоит компания UnwiredLabs предоставляющая сервисы геолокации [3]

В чем особенность проекта так в том что он начинался как сообщество у которого появилось много контрибьюторов. Изначально данные в нём тоже были открыты и удобны для выгрузки, можно прочитать об этом в статье на Хабр в 2014 году [4], а сейчас данные не только не скачать без регистрации и API ключа, но и не более 2-х файлов в месяц.

Более того, у меня есть слепок данных из этого проекта за 2021 год и когда я сравниваю, например, данные по РФ, со статистикой по РФ на сайте и содержанием дампа на сегодня, то выглядят цифры вот так:
- 1.9 миллионов сотовых вышек РФ в выгрузке за 2021 г.
- 2.2. миллиона сотовых вышек по РФ упоминаются в статистике на 2024 г.
и только 146 тысяч сотовых вышек в выгрузке данных за 2024 г.

На форуме пользователи уже задаются вопросами почему так происходит, но безответно [5].

Ответ, почти наверняка, очевиден, владелец открытого сервиса "портит его" в пользу связанного коммерческого продукта. Так не редко случается в коммерческих дата продуктах изначально основанных на создание открытых данных.

Такое бывает и с опенсорс проектами переходящими в коммерциализацию.

Ссылки:
[1] https://opencellid.org
[2] https://wiki.opencellid.org/wiki/API
[3] https://unwiredlabs.com
[4] https://habr.com/ru/companies/promwad/articles/223635/
[5] https://opencellid.org/downloads.php
[6] https://community.opencellid.org/t/data-vs-statistics-differences/1327

#opendata #dataproducts #data
Кстати, не могу не поделиться мыслью что в мире сейчас большой явный кризис в сообществе открытости данных и вызван он развитием ИИ. Я уже не в первый раз слышу разговоры в стиле зачем нам публиковать хорошие открытые данные и работать над их качеством если ИИ всё сожрёт. Это прям большое ментальное давление на очень многие проекты Wikipedia, OpenStreetMap, сообщество OKF и десятки других.

Если это не отменяет повестку открытости для гос-ва, то ограничивает и сильно повестку сообщества. Для многих это большое ограничение в том как готовить хорошие открытые данные и про усиление неравенства в мире.

Все кто создают что-либо общедоступное сталкиваются с тем что они создают лишь топливо для ИИ и что они работают не на преумножение знаний и блага людям, а на обогащение OpenAI.

#opendata #thoughts #community
Creative Commons запускает коалицию TAROCH за открытый доступ к культурному наследию

Creative Commons (CC) с гордостью объявляет о начале работы коалиции TAROCH (Towards a Recommendation on Open Cultural Heritage — пер. «На пути к рекомендации по открытому культурному наследию»). Миссия инициативы заключается в том, чтобы побудить государства-члены ЮНЕСКО разработать и принять Рекомендацию (или другой нормативный документ), поощряющую решения для расширения открытого доступа к культурному наследию.

Конечная цель коалиции TAROCH заключается в том, чтобы культурное наследие было доступно для всех на справедливой основе в соответствии с миссией ЮНЕСКО и ее культурной, информационной политикой, в частности межкультурным диалогом и культурными обменами.
В рубрике полезных инструментов с открытым кодом docling [1] от IBM Open Source и конкретнее их команды Deep Search. Утилита и библиотека для Python по преобразованию условно любых документов в Markdown. Умеет работать с (PDF, DOCX, PPTX, Images, HTML, AsciiDoc, Markdown и преобразует их в Markdown или JSON.

При этом распознает сканированные документы, извлекает таблицы и поддерживает множество движков распознавания. Интегрируется с LangChain и LllamaIndex, значительно быстрее работает при наличии CUDA.

Я проверял без графического процессора, поэтому было небыстро, но результирующий Markdown текст вполне приличный.

Можно за короткий срок извлечь таблицы из огромного числа документов, при наличии вычислительных ресурсов, конечно.

Ссылки:
[1] https://ds4sd.github.io/docling/

#opensource #pdf #dataengineering
Я тут наблюдаю время от времени как публикуют открытые данные некоторые команды, в том числе с хорошей мировой репутацией, но с небольшими знаниями по современной дата инженерии и уже какое-то бесконечное время смотрю как многие открытые и не только открытые данные опубликованы. И прихожу к мысли о том что уже классическое определение открытых данных с точки зрения 5 звезд которое формулировал Тим-Бернерс Ли [1] [2] не то чтобы устарело, но требует актуализации.

Напомню как это было сформулировано:
- 1 звезда - данные доступны онлайн в любом формате ⭐️
- 2 звезды - данные доступны хотя бы в структурированном формате, например, Excel таблица ⭐️⭐️
- 3 звезды - данные доступны в структурированном непроприетарном формате, например, CSV, KML, JSON и др. ⭐️⭐️⭐️
- 4 звезды - данные доступны по прямой ссылке и в форматах а ля RDF (RDF, Turtle, JSON-LD и тд.). То есть их не надо получать динамически через какой-нибудь экспорт из графика или системы, а можно напрямую скачать.⭐️⭐️⭐️⭐️
- 5 звезд - данные доступны как Linked data, их можно связывать с другими датасетами. ⭐️⭐️⭐️⭐️⭐️

Концепция изначально хорошая и правильная, но она неизбежно столкнулась с тем что прижилась и, то частично, только в академической среде. В первую очередь потому что Linked Data плохо связывается с большими данными в общем случае, и с тем что работа над схематическим описанием в Linked Data - это серьёзный барьер с отсутствием прямой экономической выгоды. Это не значит что связанных данных нигде нет, это лишь значит что их мало и доля не растёт. Увы.

Если посмотреть по прошествии более 10 лет с момента формулировки и с точки зрения стремительного развитие работы с данными, я бы, навскидку, описал это так. Не по звёздам, а по уровням качества данных.

- 1 уровень - данные доступны в любом виде
- 2 уровень - данные доступны и к ним есть сопровождающие их базовые метаданные
- 3 уровень - данные доступны, к ним есть метаданные и они опубликованы в машиночитаемой форме
- 4 уровень - данные доступны, к ним есть метаданные, они машиночитаемы и к ним есть документация и/или схема
- 5 уровень - данные доступны, к ним есть метаданные, они машиночитаемы, к ним есть документация и они опубликованы в современных форматах для дата инженерии (parquet) или также доступны через API или как связанные данные Linked Data
- 6 уровень - данные оформлены как дата продукт, они доступны, к ним есть метаданные, они машиночитаемы, есть документация и несколько способов/форматов их получения: простые форматы CSV/JSON, современные вроде parquet, API и SDK. Пример: датасет с данными стран доступный как CSV, как JSON, как parquet, и в виде библиотеки на Python.

Это пока что мысли навскидку, если ещё чуть-чуть подумать то можно сформулировать точнее, но основное думаю очевидно. Linked Data - это хорошо, но воспринимать это как единственно эволюционную доступность данных нельзя. Точно так же с проприетарными форматами. Когда-то Microsoft был объектом публичной атаки буквально всех кто был за открытость. Сейчас проприетарность опубликованного формата, скажем так, вторична при практическом использовании. Проблема форматов XLS/XLSX и, кстати, ODS тоже не в проприетарности, а в чрезмерной гибкости приводящей к проблемам при конвертации.

В то же время про доступность данных для дата инженеров более 10 лет назад никто особо не думал, когда обсуждали вот эту концепцию 5 звезд. Сейчас всё иначе и качество данных определяется, в том числе, тем понимаем ли мы пользователей.

Чуть позже я ещё вернусь к этой теме.

Ссылки:
[1] https://5stardata.info/en/
[2] https://dvcs.w3.org/hg/gld/raw-file/default/glossary/index.html#linked-open-data

#opendata #thoughts #data
Telegram Center
Telegram Center
Channel