
Магистрант факультета информационных технологий Новосибирского государственного университета Степан Гудков разработал ПО для автоматического распознавания рукописных книг решений волостных судов начала XX века.
Эти документы отражают повседневную жизнь сибирских крестьян и представляют огромный исторический интерес, но их ручная расшифровка занимает годы.
По моим оценкам, в начале XX века по всей России волостные суды в год выносили около 1 млн решений. Из них, конечно, сохранилась ничтожная часть. Так, в архивах по Сибири сейчас несколько десятков тысяч решений, а по всей стране, думаю, мы можем рассчитывать на сотни тысяч решений. Чтобы их ввести в научный оборот и начать изучать, их сначала нужно распознать и перевести в современный текст. Мы сейчас их вручную расшифровываем, что является очень трудоемким процессом. Могу привести пример: в ближайшее время мы выпустим две книги, в которых представлены несколько сотен решений волостных судов. На эту работу у нас ушло три года. Если мы поставим задачу распознать тексты всех решений, то, если это делать вручную, уйдет не один десяток лет. Применение же информационных технологий позволяет автоматизировать и значительно ускорить эту работу.
Разработка, выполненная под руководством профессора Владимира Барахнина, призвана решить ключевые проблемы: разнообразие почерков, дореволюционную орфографию и нестандартную верстку страниц. Алгоритм на основе машинного зрения разбивает изображение на строки и преобразует их в текст с помощью нейросетей. Для финальной корректировки и работы с контекстом молодой ученый планирует создать интерфейс для взаимодействия с историками. В перспективе система позволит создать полноценный цифровой архив с поиском, а ее методы можно будет применять для оцифровки других дореволюционных рукописей.
Ранее Наука Mail писала о нейросети для расшифровки древнерусских грамот.
