Я тут задумался над тем какие практические инструменты с LLM внутри я использую в работе и для чего хотелось бы использовать ещё. Хотелось бы, для многого конечно, но не всё ещё существует
Самое очевидное это
переписывание текстов с помощью DeepL Write. Очень удобно для переписке и публикаций не на родном языке, поскольку сильно выправляет текст. Похоже на Grammarly, но ощущение что итоговый текст гораздо лучше и поддерживается не только английский язык. Главный минус пока только в том что поддерживаются только 8 языков. В любом случае очень удобно для публикации в англоязычных и других соцсетях
Совсем не такое очевидное, но важное для меня это
сбор информации о дата каталогах. Это довольно специфическая лично моя задача по обновлению
реестра каталогов данных в Dateno. Этот процесс на текущей стадии ручной, поскольку автоматизированный ранее собранных каталогов уже выполнен и оставшаяся часть работы - это ручная разметка. В частности вручную проставляется инфа по каталогу данных:
- название
- описание
- название владельца
- тип владельца (гос-во, муниципалитет, ученые и тд.)
- тематики
- теги
А также простановка геопривязки для тех ресурсов у которых её нет или если выясняется что они уровня регионов.
Это много ручной работы напрямую влияющей на качество данных в Dateno, поскольку тип владельца, геопривязки и тематики идут в фасеты поиска, а остальные поля отображаются в карточках датасетов.
Оказалось что Perplexity отлично выдаёт ответы на такие вопросы как:
- Who owns <> website ?
- About what this website is <> ?
А также, что очень практически удобно, Perplexity умеет точно отвечать на такие вопросы как "
What is ISO3166-2 code of the Magallanes and Chilean Antarctica ?" и выдавать точный код.
Скорее всего Perplexity можно заменить на другую модель, но и текущие результаты вполне полезны.
Сейчас в Dateno около 18% (
3.4 миллиона) наборов данных не имеют пометки типа владельца данных, а 2.4 миллиона не имеют привязки к стране/территории.
Это, в любом случае лучше чем у Google Dataset Search, но всё ещё недостаточно хорошо.
Применение LLM в повышении качества метаданных кажется очень реалистичной задачей.
#ai #thoughts #dateno #datasets #data