Киберпсихологи ННГУ разработают систему анализа стресса в речи человека

Специалисты кафедры киберпсихологии факультета социальных наук ННГУ им. Н. И. Лобачевского (Нижний Новгород) разрабатывают модели машинного обучения для выявления тревоги по акустическим признакам.
Киберпсихологи ННГУ разработают систему анализа стресса в речи человека
Источник: ТАСС Наука

Определение уровня стресса и тревоги в речи имеет важное применение в образовании, области психического здоровья и во взаимодействии человек-компьютер, сообщили ТАСС в пресс-службе вуза.

«Автоматическое определение стресса по голосу дает инструмент для раннего выявления перегрузок — помогает своевременно обнаруживать уязвимые состояния у операторов, диспетчеров и медперсонала, снижая риск ошибок и выгорания. Также это и фиксация состояния клиента, что, к примеру, может быть полезно для выявления мошенничества — когда клиент введен в заблуждение и просит банк выполнить подозрительную операцию», — рассказала кандидат психологических наук, заведующая кафедрой киберпсихологии факультета социальных наук Университета Лобачевского Валерия Демарева.

Ученые отмечают, что стресс активно проявляется в речи: вегетативная нервная система вызывает увеличение мышечного тонуса и частоты дыхания, что может приводить к более жесткому или дрожащему голосу, а также к изменению ритма и тембра речи. В результате меняются высота тона, громкость (интенсивность) и скорость речи.

Для исследования использовался конвейер машинного обучения на основе мел-частотных кепстральных коэффициентов (MFCC). MFCC выбраны потому, что компактно и точно описывают спектральную оболочку речи, устойчивы к шуму после нормализации, показывают хорошую различающую способность для стилей речи и эмоциональных состояний и хорошо работают на небольших выборках, то есть они являются надежным и интерпретируемым базисом для пилотного исследования. Считается, что именно эти коэффициенты способны давать устойчивую классификацию стресса, а слияние с другими спектральными признаками улучшает точность работы.

стресс мужчина
Источник: Freepik

Суть эксперимента

Для изучения голосовых изменений, связанных со стрессом в академической речи, 10 студентов, специализирующихся на кафедре киберпсихологии, подготовили отрывок своей научной презентации и проговорили этот текст в двух ситуациях: публично, выступая перед комиссией и коллегами в аудитории, и приватно — в тихом кабинете без публики. Каждая четырехминутная запись была разбита на несоприкасающиеся пятисекундные отрезки, что в итоге позволило получить 565 сегментов для приватного и 569 сегментов для публичного выступления. После тщательной очистки сигнала и извлечения MFCC машинный классификатор Gradient Boosting оказался способен различить тревогу в речи с точностью 91,9%, основываясь на этих признаках. Из 110 приватных сегментов корректно было классифицировано 102, из 111 публичных — 101. Ошибки равномерно распределены без систематического смещения в сторону одного класса.

Валерия Демарева отмечает, что точность приблизительно 92% в контролируемых условиях обнадеживает, но во многом связана с тщательной предобработкой и однородностью выборки. «Это не гарантирует такую же устойчивость в реальных разнородных данных. В нашем исследовании мы планируем расширение выборки, валидацию, добавление динамических и просодических признаков, внедрение последовательных архитектур и методов адаптации домена», — добавила Демарева.