
Исследователи Центра языка и мозга Высшей школы экономики разработали онлайн-инструмент, позволяющий определить сложность текстов на малоресурсных языках России, рассказали в пресс-службе вуза.
В первой версии поддерживаются несколько языков: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.
Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов.
Инструмент оценивает тексты по нескольким параметрам:
- длина и частотность слов — они анализируются на основе данных из больших языковых корпусов;
- процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5 тыс. наиболее употребляемых слов каждого языка;
- соотношение частей речи — анализируется распределение различных частей речи в тексте;
- учитываются также лексическая плотность, лексическое разнообразие, динамичность и описательность текста.
Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста.

Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяны Петруниной и Нины Здоровой коэффициенты в формуле были пересчитаны для адыгейского языка отдельно, что значительно повысило точность оценки.
Параметры нашего калькулятора адаптированы под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик.
По данным Института языкознания РАН, в России насчитывается 155 языков. На адыгейском говорят около 80 тыс. человек, на бурятском, осетинском и удмуртском — от 250 до 350 тыс. Больше миллиона носителей знают башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке.
«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отмечает Нина Здорова, один из авторов инструмента.
В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков, причем не только на территории России.
Ранее Наука Mail рассказывала, что Оксфордский словарь назвал слово 2025 года.