Названия населённых пунктов России, часть 0. Вводные замечания
База названий населённых пунктов России, с которой я работаю, несколько рассогласована: по 82 субъектам перечень населённых пунктов взят из итогов переписи 2021 года (за данные премного благодарен ДОРОГОМУ БРАТУ
@stalad), а по новым регионам, в которых по понятной причине переписи не было, и по городам федерального значения — из ОКТМО версии января 2024 года. (Когда-нибудь я актуализирую это всё, но потом). В итоге в список вошло 159324 населённых пункта, включая НП в составе городов федерального значения: 294 в Москве, 31 в Петербурге и 44 в Севастополе.
Названия населённых пунктов были подвергнуты предобработке:
1) название разделено на две части: категория населённого пункта (город, посёлок, деревня, хутор и т. д.) и собственно топоним. Пример:
д. Ивановка →
деревня (категория) +
Ивановка (топоним),
п. ст. Мачихино →
посёлок (железнодорожной) станции (категория) +
Мачихино (топоним)
2) часть названий очищена от номеров и внешнего оформления. Примеры:
Ивановка 1-я →
Ивановка,
[п.] 3-го отделения совхоза «Большевик» →
Большевик и т. д. Из-за этого возникло 28 «пустых» топонимов, так как некоторые населённые пункты в нашей стране называются просто числами:
железнодорожная водокачка №1, хутор № 12, посёлок 4-й. Воистину сумрачен был советский административный гений.
Таким образом, в базе ойконимов (названий населённых пунктов) оказалось 159296 записей.
Отдельного замечания заслуживает проблема буквы Ё. В исходных данных она используется выборочно, поэтому два одинаковых названия могут быть записаны по-разному. Чтобы определить верный вариант записи, нужно знать, как произносится название конкретного НП (
Новоело́во или
Новоёлово?), но такой информации, конечно, ни в переписи, ни в ОКАТО нет. Из-за этого приходится рассматривать каждое спорное название строго в той форме, которая содержится в базе.