Российские ученые обучили нейросеть распознавать жесты по видео

Специалисты Санкт-Петербургского федерального исследовательского центра РАН разработали интеллектуальный программный комплекс, способный распознавать управляющие жесты по видеопотоку.
Автор Наука Mail
Ученый использует в работе нейросеть
Одним из важных направлений, над которой в России работают специалисты крупнейших IT-компаний, является распознавание управляющих жестовИсточник: Freepik

Разработка российских ученых направлена на решение важной задачи по расширению каналов коммуникации между человеком и искусственным интеллектом. Современные системы уже эффективно обрабатывают текст и речь, однако следующим шагом становится корректная интерпретация невербальных сигналов: мимики и жестов. Это особенно актуально для сфер, где случайное нажатие физической кнопки может повлиять на безопасность, а также при работе в условиях виртуальной реальности.

Программное обеспечение, созданное в лаборатории речевых и многомодальных интерфейсов, автоматически распознает 34 часто используемых управляемых жеста, включая сигналы «лайк», «позвонить», а также знак «rock», популярный в музыкальной культуре. Пользователю достаточно включить программу на ноутбуке или компьютере, чтобы система начала считывать команды. Обучение нейросети проводилось на масштабном корпусе данных, содержащем более миллиона изображений людей разного пола, возраста и национальности, которые находятся в открытом доступе.

ИИ-иллюстрация
Ученые разработали программное обеспечение, позволяющее по видео распознавать широкий спектр управляющих жестовИсточник: https://ru.freepik.com
Мы разработали программное обеспечение, позволяющее по видео распознавать широкий спектр управляющих жестов, которые в повседневной жизни и на работе активно использует каждый человек. Условно говоря, когда пользователь захочет позвонить или поставить "лайк" под фото в соцсети, ему достаточно показать в камеру большой палец. Кроме того, в медицине или на пищевом производстве дистанционное управление оборудованием при помощи жестов поможет обеспечить высокий уровень гигиеничности
Дмитрий Рюмин
старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН

Для повышения качества распознавания исследователи применили нейросетевую модель, которая строит трехмерную карту глубины изображения. Эта технология позволяет системе точно определять жесты даже в условиях, когда фон сливается с руками человека. Разработка может выступать как самостоятельный интерфейс управления цифровыми помощниками, так и становиться частью мультимодальных приложений, объединяющих речевое, текстовое и эмоциональное взаимодействие. Работа выполнена при поддержке гранта Российского научного фонда, а программное обеспечение уже получило свидетельство о государственной регистрации.

Ранее Наука Mail рассказывала, что ИИ научили «слышать» неисправности в электродвигателях.