Работа со старыми документами и особыми почерками (палеография) — это интересная задача. Вот пошаговая инструкция, как подойти к этой проблеме, от простого к сложному.
Шаг 1: Подготовка фотографий (самое важное!)
Качество распознавания зависит от качества изображения.
-
Убедитесь, что фотографии в высоком разрешении. Если есть возможность, отсканируйте их с разрешением не менее 300-600 dpi.
-
Улучшите читаемость:
-
Выровняйте изображение (чтобы строки были горизонтальными).
-
Увеличьте контраст (чтобы буквы были темными, а фон — светлым). Можно использовать инструменты «Кривые» или «Уровни» в любом графическом редакторе (даже в бесплатных типа GIMP или встроенных в Windows/Mac).
-
Уберите желтизну. Используйте коррекцию цвета («Баланс белого»), чтобы страница стала ближе к серо-белой. Это сильно помогает программам.
-
Обрежьте лишнее, оставив только текст.
-
Шаг 2: Попробуйте современные инструменты OCR (распознавание текста)
Начните с них, но будьте готовы к ошибкам.
-
FineReader (ABBY) — золотой стандарт. У него есть режим «Документы XIX-XX вв.» и возможность обучать шрифты. Если документ ценный, стоит потратиться на пробную версию. Он лучше всего справляется с «уставным» типографским текстом.
-
Бесплатные аналоги:
-
Google Keep / Google Диск. Загрузите изображение в Google Диск, откройте правой кнопкой -> «Открыть с помощью» -> «Google Документы». Он создаст текстовый файл, где под картинкой будет распознанный текст. Может справиться с четким печатным текстом.
-
Tesseract OCR — мощный бесплатный движок. Для него есть графические оболочки, например, gImageReader. Нужно будет выбрать язык (например,
rus+eng). Для старой орфографии может потребоваться специально обученная модель (ищите «Tesseract for old Russian orthography»).
-
-
Специализированные сервисы для историков: Например, Transkribus. Это мощнейшая платформа, использующая ИИ, обученный именно на рукописных исторических документах. У них есть публичные модели для кириллицы разных периодов. Сервис платный, но для разовых задач может быть бесплатный лимит. Это, пожалуй, самый перспективный вариант для сложного почерка.
Шаг 3: Если OCR не справляется (работа с почерком)
Здесь начинается палеография.
-
Найдите ключ к почерку:
-
Выпишите все встречающиеся буквы в печатном виде, особенно те, которые вы смогли опознать. Обращайте внимание на характерные элементы: как выписываются «м», «т», «д», «з», «х», «Ѣ» (ять), «i» (и десятеричное), «Ѳ» (фита).
-
В 1920 году используется дореформенная орфография. Обязательно сверяйтесь с алфавитом того времени. Буквы ѣ (ять), i (и десятеричное), ѳ (фита), ѵ (ижица), твердый знак (ъ) в конце слов — обычное дело.
-
Полезный ресурс: Сайт «Всеясветная грамота» или справочники по палеографии. Поищите «алфавит дореформенной русской орфографии» и «образцы почерков начала XX века».
-
-
Используйте сообщества и краудсорсинг:
-
Форумы ВГД (Всероссийское генеалогическое древо). Там сидят эксперты, которые читают такие документы на скорость. Создайте тему в соответствующем разделе, обязательно укажите губернию и год.
-
Группы в социальных сетях, посвященные истории, генеалогии, архивам (например, «Палеография: чтение старинных рукописей» в ВК).
-
Сервис «Одноклассники» неожиданно активен в этой сфере — много групп по краеведению и истории.
-
-
Просите помощи у профессионалов:
-
Обратитесь в региональный архив или краеведческий музей той местности, к которой относятся документы. Архивисты часто проводят бесплатные консультации.
-
Можно заказать платные услуги по расшифровке у частных исследователей-генеалогов.
-
Шаг 4: Советы по самостоятельному чтению
-
Читайте не по буквам, а по словам. Попробуйте угадать слово по контексту и общему смыслу.
-
Сравнивайте. Если есть несколько страниц, одна и та же буква в разных словах поможет ее идентифицировать.
-
Ищите знакомое. Сначала найдите и выпишите все понятные слова (например, названия городов, имена, должности), чтобы понять общую структуру текста.
-
Используйте лупу (цифровое увеличение).
Краткий план действий:
-
Обработайте фото (контраст, убрать желтизну).
-
Попробуйте Transkribus — это самый современный и адекватный инструмент для рукописей.
-
Если не сработало, попробуйте FineReader для печатных фрагментов.
-
Выложите непонятные фрагменты на ВГД или в тематическую группу — сообщество поможет быстро.
-
Для самых сложных мест изучайте алфавит 1920 года и сравнивайте буквы.




