Студентка создала модель для оцифровки тибетских рукописей

Молодая исследовательница Анна Мурашкина вручную выполнила разметку тибетских текстов из архивов и создала программу для оптического распознавания символов. Это поможет сохранить знания о тибетской культуре из тысяч уникальных манускриптов.
Автор Наука Mail
Тибетская рукопись
В исследовании использованы изображения страниц классических тибетских текстов XVIII–XX веков из архива Центра восточных рукописей и ксилографов Института монголоведения, буддологии и тибетологии СО РАНИсточник: Пресс-служба НГУ

Студентка Гуманитарного института Новосибирского государственного университета (НГУ) и сотрудница Института вычислительной математики и математической геофизики СО РАН Анна Мурашкина разработала систему автоматического распознавания и транслитерации текстов на тибетском языке. Модель ориентирована на старопечатные документы, в которых использовано тибетское слоговое письмо, восходящее к древнеиндийскому брахми.

Старопечатные документы, рукописи и ксилографы содержат уникальные сведения о философии, религии, медицине, истории и искусстве, играя ключевую роль в изучении культурных традиций региона. Эти знания передаются в Тибете из поколения в поколение. Однако со временем под воздействием природных и антропогенных факторов бумажные носители подвержены физическому разрушению, что ведет к утрате бесценной информации и ограничивает доступ к этим уникальным материалам. В настоящее время в Тибетском фонде Института монголоведения, буддологии и тибетологии СО РАН хранится до 70 тысяч единиц хроники, которые рискуют быть утерянными. Один из наиболее надежных способов сохранения и систематизации исторических документов — их оцифровка.
Анна Мурашкина
студентка направления «Фундаментальная и прикладная лингвистика» Гуманитарного института НГУ, сотрудница ИВМиМГ СО РАН

Молодая исследовательница создала модель, которая распознает символы тибетского алфавита с изображений и переводит их в машиночитаемый вид. Разработка дает более точные результаты, чем уже существующие открытые решения.

Архивы фонда Института монголоведения, буддологии и тибетологии СО РАН (ИМБТ СО РАН)
Архивы фонда Института монголоведения, буддологии и тибетологии СО РАН (ИМБТ СО РАН)Источник: Telegram-канал НГУ

«Я вручную выполнила лингвистическую разметку строк тибетского текста из фонда ИМБТ СО РАН. Затем с учетом специфики тибетской графики разработала систему оценки качества оптического распознавания символов (OCR). Далее провела сравнение существующих архитектур и выбрала модель сверточной нейросети, которая потребовала дообучения», —  пояснила Анна Мурашкина. Дообучение модели реализовано на размеченном корпусе документов.

По итогам работы создан полный модульный алгоритм OCR, который включает этапы предобработки, сегментации, распознавания и постобработки. Это позволит сохранить исторические тибетские рукописи в цифровом виде для доступа всех желающих.

«Мою разработку будут использовать сотрудники Института монголоведения, буддологии и тибетологии СО РАН. Также обсуждается возможность сотрудничества с Буддистским центром цифровых технологий, который проводит оцифровку архивов храмов и монастырей. В сотрудничестве с этой организацией мы расширим возможности оцифровки тибетских рукописей с помощью открытых ресурсов, разрабатываемых совместно с исследователями организаций разных стран, чтобы впоследствии каждый человек мог прикоснуться к этому бесценному наследию и ознакомиться с документами, которые находятся в храмах и хранилищах архивов», — рассказала автор модели.

Ранее Наука Mail писала о том, как китайские храмы сохранили тысячи исчезающих деревьев.