Интервидение

В СПбГУ попытались найти идеального ИИ-интервьюера

Перовое масштабное научное сравнение шести больших языковых моделей, используемых в различных опросах в качестве интервьюеров, показало, что пока в этом деле ИИ не смог превзойти человека.
Автор Наука Mail
Робот-интервьюер
Большие языковые модели все чаще используются в качестве адаптивных интервьюеров в качественных исследованиях и при взаимодействии человека с компьютеромИсточник: Freepik

В настоящее время большие языковые модели (LLM) научились не просто отвечать на вопросы, но и задавать их. Это открыло возможность использовать искусственный интеллект в роли интервьюера — например, для первичного сбора данных в психологии, социологии или при медико‑просветительских беседах. Но до недавнего времени оставалось неясным, насколько хорошо ИИ справляется с этой ролью.

Исследователи из Санкт‑Петербургского государственного университета (СПбГУ), Института психологии РАН и Института искусственного интеллекта AIRI впервые провели систематический, контролируемый эксперимент, в котором поведение ИИ‑интервьюеров оценивалось не по скорости или объему текста, а по критериям качества беседы. Для того чтобы сравнение между разными моделями было честным, исследователи использовали стандартизированные стенограммы реальных опросов, которые проводили люди.

Мы разработали модульного LLM‑агента, который выступает в роли интервьюера. Он получает заранее заготовленный список из 54 основных вопросов, охватывающих биографию, семью, интересы, жизненные вызовы, ценности, работу и здоровье собеседника. После каждого ответа он должен решить, достаточно ли информации получено или нужно задать уточняющий вопрос.
Михаил Козин
ведущий аналитик данных Центра искусственного интеллекта и науки о данных СПбГУ

Исследование было выполнено на основе шести современных языковых моделей: Claude Sonnet 4, Gemini 2.5 Pro, GPT 5 Chat, Grok 4, Qwen3 235B и DeepSeek Chat V3.1. Каждая из них провела интервью с 10 виртуальными собеседниками, а общий массив для анализа составил почти 3 тыс. вопросов и уточнений. Затем три эксперта‑психолингвиста независимо оценили каждое действие интервьюера по пяти критериям: доброжелательность тона, необходимость уточняющих вопросов, контекстная осознанность и оправданный пропуск, когда интервьюер решил не задавать вопрос.

Девушка проводит интервью
Умение задавать уточняющие вопросы, проявлять эмпатию, не перебивать и не навязывать свое мнение — это навыки, которые присущи только человекуИсточник: Freepik

Помимо этого ученые измерили скорость работы моделей, количество заданных уточняющих вопросов и провели детальный лингвистический анализ. Они смотрели, какие местоимения, времена глаголов, усилительные слова и синтаксические конструкции используют разные LLM.

Ни одна из шести моделей не стала абсолютным лидером по всем параметрам. Так, Gemini 2.5 Pro оказался самым эмпатичным интервьюером, GPT 5 Chat — очень быстрым и точным, а Grok 4 выбрал противоположную стратегию — максимальную полноту ценой излишней дотошности и риска утомить собеседника. Исследователи также обнаружили прямую связь между языковыми особенностями моделей и их восприятием: частое использование личных местоимений, усилительных слов и сложных синтаксических конструкций делает интервьюера более эмпатичным и вовлеченным в глазах экспертов. Впрочем, избыточная синтаксическая сложность, как в случае с Grok 4, может работать против модели, делая ее вопросы тяжелыми для восприятия.

Таким образом, авторы не просто сравнили модели, а предложили готовый инструментарий для оценки LLM‑интервьюеров. Любой исследователь, который захочет использовать ИИ для проведения опросов или психологических интервью, может сначала протестировать разные модели по этим критериям и выбрать ту, чей стиль лучше всего подходит под поставленные задачи.

Ранее мы рассказывали, что ИИ сможет прогнозировать тайфуны и образование морского льда в океане.