
Лингвисты Высшей школы экономики создали уникальный датасет для обучения нейросетей распознаванию человеческих эмоций.
Разработка исследователей Анастасии Колмогоровой и Елизаветы Куликовой включает 909 видеофрагментов, размеченных по шести базовым эмоциям в четырех форматах: полное видео, аудио, текст и видео без звука.
Исследование опровергло мнение, что эмоции лучше передаются интонацией. Наиболее согласованно люди распознают эмоции по тексту и видео со звуком. Анализ показал, что радость и удивление лучше определяются через интонацию, злость — по тексту, а страх практически не распознается по мимике — только по тексту и аудио.

Разработка уже используется в реальных проектах, включая анализ отзывов для музея-заповедника и создание эмпатичного чат-бота для Эрмитажа. Тестирование восьми моделей показало результаты:
текстовые алгоритмы определяют эмоции точнее всего (50-58%);
аудиальные демонстрируют среднюю точность (около 40%);
наименее точен анализ мимики (25,6%).
Словарь доступен научному сообществу и будет расширяться.
Ранее Наука Mail писала о чат-боте для генерации алтайских мифов и легенд, который создают томские ученые.

