Чтение старых архивных документов с почерком

Работа со старыми документами и особыми почерками (палеография) — это интересная задача. Вот пошаговая инструкция, как подойти к этой проблеме, от простого к сложному.

Шаг 1: Подготовка фотографий (самое важное!)

Качество распознавания зависит от качества изображения.

Убедитесь, что фотографии в высоком разрешении. Если есть возможность, отсканируйте их с разрешением не менее 300-600 dpi.
Улучшите читаемость:
- Выровняйте изображение (чтобы строки были горизонтальными).
- Увеличьте контраст (чтобы буквы были темными, а фон — светлым). Можно использовать инструменты «Кривые» или «Уровни» в любом графическом редакторе (даже в бесплатных типа GIMP или встроенных в Windows/Mac).
- Уберите желтизну. Используйте коррекцию цвета («Баланс белого»), чтобы страница стала ближе к серо-белой. Это сильно помогает программам.
- Обрежьте лишнее, оставив только текст.

Шаг 2: Попробуйте современные инструменты OCR (распознавание текста)

Начните с них, но будьте готовы к ошибкам.

FineReader (ABBY) — золотой стандарт. У него есть режим «Документы XIX-XX вв.» и возможность обучать шрифты. Если документ ценный, стоит потратиться на пробную версию. Он лучше всего справляется с «уставным» типографским текстом.
Бесплатные аналоги:
- Google Keep / Google Диск. Загрузите изображение в Google Диск, откройте правой кнопкой -> «Открыть с помощью» -> «Google Документы». Он создаст текстовый файл, где под картинкой будет распознанный текст. Может справиться с четким печатным текстом.
- Tesseract OCR — мощный бесплатный движок. Для него есть графические оболочки, например, gImageReader. Нужно будет выбрать язык (например, rus+eng). Для старой орфографии может потребоваться специально обученная модель (ищите «Tesseract for old Russian orthography»).
Специализированные сервисы для историков: Например, Transkribus. Это мощнейшая платформа, использующая ИИ, обученный именно на рукописных исторических документах. У них есть публичные модели для кириллицы разных периодов. Сервис платный, но для разовых задач может быть бесплатный лимит. Это, пожалуй, самый перспективный вариант для сложного почерка.

Шаг 3: Если OCR не справляется (работа с почерком)

Здесь начинается палеография.

Найдите ключ к почерку:
- Выпишите все встречающиеся буквы в печатном виде, особенно те, которые вы смогли опознать. Обращайте внимание на характерные элементы: как выписываются «м», «т», «д», «з», «х», «Ѣ» (ять), «i» (и десятеричное), «Ѳ» (фита).
- В 1920 году используется дореформенная орфография. Обязательно сверяйтесь с алфавитом того времени. Буквы ѣ (ять), i (и десятеричное), ѳ (фита), ѵ (ижица), твердый знак (ъ) в конце слов — обычное дело.
- Полезный ресурс: Сайт «Всеясветная грамота» или справочники по палеографии. Поищите «алфавит дореформенной русской орфографии» и «образцы почерков начала XX века».
Используйте сообщества и краудсорсинг:
- Форумы ВГД (Всероссийское генеалогическое древо). Там сидят эксперты, которые читают такие документы на скорость. Создайте тему в соответствующем разделе, обязательно укажите губернию и год.
- Группы в социальных сетях, посвященные истории, генеалогии, архивам (например, «Палеография: чтение старинных рукописей» в ВК).
- Сервис «Одноклассники» неожиданно активен в этой сфере — много групп по краеведению и истории.
Просите помощи у профессионалов:
- Обратитесь в региональный архив или краеведческий музей той местности, к которой относятся документы. Архивисты часто проводят бесплатные консультации.
- Можно заказать платные услуги по расшифровке у частных исследователей-генеалогов.

Шаг 4: Советы по самостоятельному чтению

Читайте не по буквам, а по словам. Попробуйте угадать слово по контексту и общему смыслу.
Сравнивайте. Если есть несколько страниц, одна и та же буква в разных словах поможет ее идентифицировать.
Ищите знакомое. Сначала найдите и выпишите все понятные слова (например, названия городов, имена, должности), чтобы понять общую структуру текста.
Используйте лупу (цифровое увеличение).

Краткий план действий:

Обработайте фото (контраст, убрать желтизну).
Попробуйте Transkribus — это самый современный и адекватный инструмент для рукописей.
Если не сработало, попробуйте FineReader для печатных фрагментов.
Выложите непонятные фрагменты на ВГД или в тематическую группу — сообщество поможет быстро.
Для самых сложных мест изучайте алфавит 1920 года и сравнивайте буквы.