Искусственный интеллект

Стало известно, что мешает ИИ говорить по-человечески

Немецкие ученые выяснили, какие факторы влияют на способность человека распознавать синтезированную речь. Оказалось, что помимо тембра и интонации, на оценку влияет смысл сказанного и возраст слушателя.
Автор Наука Mail
Иллюстрация говорящего робота
Как люди воспринимают разницу между реальными и сгенерированными компьютером голосами? Источник: MPIEA / Л. Биттнер

Современные навигационные системы, голосовые помощники и автоматические объявления все чаще используют синтезированную речь. Ученые Института эмпирической эстетики им. Макса Планка в Германии провели исследование, чтобы выяснить, насколько по-человечески звучат эти голоса. Результаты работы опубликованы в журнале Speech Communication.

Специалисты провели два последовательных эксперимента. Для начала они создали 16 коротких предложений на немецком языке (например, «Мальчик подарил отцу шляпу»). Затем команда модифицировала их тремя способами: меняла порядок слов, заменяла слова похожими по звучанию псевдословами или комбинировала оба изменения. В итоге каждый вариант предложения был записан восемью реальными дикторами и восемью синтезированными голосами с помощью технологии преобразования текста в речь (TTS).

В первом эксперименте 40 носителей немецкого языка оценили голоса. Синтезированные варианты в целом воспринимались как менее естественные. Анализ акустических характеристик показал объективные различия в тембре и интонации между живым человеком и компьютером.

Макет мозга
Исследование показывает, что на наше восприятие искусственной речи влияют три фактора: как что-то сказано, что говорится и понимаем ли мы языкИсточник: Unsplash

Однако содержание тоже играет роль. Измененные предложения с нарушенной грамматикой или псевдословами оценивались как менее человечные, даже если их произносил реальный человек. Этот эффект пропадал, если слушатель не понимал язык. Во втором эксперименте с участием 120 человек, среди которых были носители немецкого, испанского и турецкого языков, выяснилось, что для не знающих немецкий языковое содержание не имело значения.

Также ученые заметили, что пожилые люди чаще оценивают компьютерные голоса как более человечные по сравнению с молодежью. Исследователи планируют изучить этот феномен детальнее в будущих работах с участием разных возрастных групп.

Ранее нейросеть научили определять лидерский потенциал соискателя по видеоинтервью.