
Современные навигационные системы, голосовые помощники и автоматические объявления все чаще используют синтезированную речь. Ученые Института эмпирической эстетики им. Макса Планка в Германии провели исследование, чтобы выяснить, насколько по-человечески звучат эти голоса. Результаты работы опубликованы в журнале Speech Communication.
Специалисты провели два последовательных эксперимента. Для начала они создали 16 коротких предложений на немецком языке (например, «Мальчик подарил отцу шляпу»). Затем команда модифицировала их тремя способами: меняла порядок слов, заменяла слова похожими по звучанию псевдословами или комбинировала оба изменения. В итоге каждый вариант предложения был записан восемью реальными дикторами и восемью синтезированными голосами с помощью технологии преобразования текста в речь (TTS).
В первом эксперименте 40 носителей немецкого языка оценили голоса. Синтезированные варианты в целом воспринимались как менее естественные. Анализ акустических характеристик показал объективные различия в тембре и интонации между живым человеком и компьютером.

Однако содержание тоже играет роль. Измененные предложения с нарушенной грамматикой или псевдословами оценивались как менее человечные, даже если их произносил реальный человек. Этот эффект пропадал, если слушатель не понимал язык. Во втором эксперименте с участием 120 человек, среди которых были носители немецкого, испанского и турецкого языков, выяснилось, что для не знающих немецкий языковое содержание не имело значения.
Также ученые заметили, что пожилые люди чаще оценивают компьютерные голоса как более человечные по сравнению с молодежью. Исследователи планируют изучить этот феномен детальнее в будущих работах с участием разных возрастных групп.
Ранее нейросеть научили определять лидерский потенциал соискателя по видеоинтервью.

