Создан калькулятор сложности малых языков России

Новый инструмент, разработанный ВШЭ, помогает быстро и легко оценить сложность текста на нескольких малых языках с учетом их лингвистических особенностей.
Автор Наука Mail
флаг России на флагштоке
В России насчитывается 155 языков, на некоторых из малых языках говорят сотни тысяч и миллионы людейИсточник: Unsplash

Исследователи Центра языка и мозга Высшей школы экономики разработали онлайн-инструмент, позволяющий определить сложность текстов на малоресурсных языках России, рассказали в пресс-службе вуза.

В первой версии поддерживаются несколько языков: адыгейский, башкирский, бурятский, татарский, осетинский и удмуртский. Это первая подобная разработка, адаптированная специально для этих языков и учитывающая их морфологические и лексические особенности.

Калькулятор создавался с опорой на опыт Антонины Лапошиной и Марии Лебедевой, разработавших инструмент для оценки сложности русскоязычных текстов.

Инструмент оценивает тексты по нескольким параметрам:

  • длина и частотность слов — они анализируются на основе данных из больших языковых корпусов;
  • процент лексики из частотного списка, то есть учитывается доля слов, входящих в список 5 тыс. наиболее употребляемых слов каждого языка;
  • соотношение частей речи — анализируется распределение различных частей речи в тексте;
  • учитываются также лексическая плотность, лексическое разнообразие, динамичность и описательность текста.

Ключевая инновация — использование формулы удобочитаемости Флеша, адаптированной для каждого языка отдельно. Это позволяет точнее оценивать сложность и удобство восприятия текста.

дети сидят в школьном классе
Разработка будет полезна при выборе текстов для образовательных целейИсточник: freepik.com

Индекс Флеша основан на количестве слов, предложений и слогов, но исходные коэффициенты были подобраны для английского языка и плохо работают для языков с иной структурой — например, для полисинтетического адыгейского, где средняя длина слова значительно больше. В исследовании 2025 года Ульяны Петруниной и Нины Здоровой коэффициенты в формуле были пересчитаны для адыгейского языка отдельно, что значительно повысило точность оценки.

Параметры нашего калькулятора адаптированы под структурные особенности каждого из шести малоресурсных языков России — на основе корпусов текстов, частотного и морфологического анализа. Аналогичным образом мы скорректировали и классический индекс удобочитаемости Флеша. Благодаря этому алгоритм можно легко перенастраивать на другие малоресурсные языки, независимо от их типологических характеристик.
Ульяна Петрунина
научный сотрудник Центра языка и мозга НИУ ВШЭ

По данным Института языкознания РАН, в России насчитывается 155 языков. На адыгейском говорят около 80 тыс. человек, на бурятском, осетинском и удмуртском — от 250 до 350 тыс. Больше миллиона носителей знают башкирский и татарский. Все эти языки имеют статус государственных в республиках России, поэтому важно не только сохранить их, но и создавать условия для их развития, а также возможности для обучения и реального использования, в том числе в образовании и науке. 

«Наш инструмент позволяет исследователям и педагогам подбирать материалы с учетом их лингвистической сложности, что особенно важно для исследований и преподавания с ограниченным количеством ресурсов на данных языках», — отмечает Нина Здорова, один из авторов инструмента.

В следующих версиях планируется добавление других малоресурсных и мало представленных в лингвистике языков, причем не только на территории России.

Ранее Наука Mail рассказывала, что Оксфордский словарь назвал слово 2025 года.