
Определение уровня стресса и тревоги в речи имеет важное применение в образовании, области психического здоровья и во взаимодействии человек-компьютер, сообщили ТАСС в пресс-службе вуза.
«Автоматическое определение стресса по голосу дает инструмент для раннего выявления перегрузок — помогает своевременно обнаруживать уязвимые состояния у операторов, диспетчеров и медперсонала, снижая риск ошибок и выгорания. Также это и фиксация состояния клиента, что, к примеру, может быть полезно для выявления мошенничества — когда клиент введен в заблуждение и просит банк выполнить подозрительную операцию», — рассказала кандидат психологических наук, заведующая кафедрой киберпсихологии факультета социальных наук Университета Лобачевского Валерия Демарева.
Ученые отмечают, что стресс активно проявляется в речи: вегетативная нервная система вызывает увеличение мышечного тонуса и частоты дыхания, что может приводить к более жесткому или дрожащему голосу, а также к изменению ритма и тембра речи. В результате меняются высота тона, громкость (интенсивность) и скорость речи.
Для исследования использовался конвейер машинного обучения на основе мел-частотных кепстральных коэффициентов (MFCC). MFCC выбраны потому, что компактно и точно описывают спектральную оболочку речи, устойчивы к шуму после нормализации, показывают хорошую различающую способность для стилей речи и эмоциональных состояний и хорошо работают на небольших выборках, то есть они являются надежным и интерпретируемым базисом для пилотного исследования. Считается, что именно эти коэффициенты способны давать устойчивую классификацию стресса, а слияние с другими спектральными признаками улучшает точность работы.

Суть эксперимента
Для изучения голосовых изменений, связанных со стрессом в академической речи, 10 студентов, специализирующихся на кафедре киберпсихологии, подготовили отрывок своей научной презентации и проговорили этот текст в двух ситуациях: публично, выступая перед комиссией и коллегами в аудитории, и приватно — в тихом кабинете без публики. Каждая четырехминутная запись была разбита на несоприкасающиеся пятисекундные отрезки, что в итоге позволило получить 565 сегментов для приватного и 569 сегментов для публичного выступления. После тщательной очистки сигнала и извлечения MFCC машинный классификатор Gradient Boosting оказался способен различить тревогу в речи с точностью 91,9%, основываясь на этих признаках. Из 110 приватных сегментов корректно было классифицировано 102, из 111 публичных — 101. Ошибки равномерно распределены без систематического смещения в сторону одного класса.
Валерия Демарева отмечает, что точность приблизительно 92% в контролируемых условиях обнадеживает, но во многом связана с тщательной предобработкой и однородностью выборки. «Это не гарантирует такую же устойчивость в реальных разнородных данных. В нашем исследовании мы планируем расширение выборки, валидацию, добавление динамических и просодических признаков, внедрение последовательных архитектур и методов адаптации домена», — добавила Демарева.