
В настоящее время большие языковые модели (LLM) научились не просто отвечать на вопросы, но и задавать их. Это открыло возможность использовать искусственный интеллект в роли интервьюера — например, для первичного сбора данных в психологии, социологии или при медико‑просветительских беседах. Но до недавнего времени оставалось неясным, насколько хорошо ИИ справляется с этой ролью.
Исследователи из Санкт‑Петербургского государственного университета (СПбГУ), Института психологии РАН и Института искусственного интеллекта AIRI впервые провели систематический, контролируемый эксперимент, в котором поведение ИИ‑интервьюеров оценивалось не по скорости или объему текста, а по критериям качества беседы. Для того чтобы сравнение между разными моделями было честным, исследователи использовали стандартизированные стенограммы реальных опросов, которые проводили люди.
Мы разработали модульного LLM‑агента, который выступает в роли интервьюера. Он получает заранее заготовленный список из 54 основных вопросов, охватывающих биографию, семью, интересы, жизненные вызовы, ценности, работу и здоровье собеседника. После каждого ответа он должен решить, достаточно ли информации получено или нужно задать уточняющий вопрос.
Исследование было выполнено на основе шести современных языковых моделей: Claude Sonnet 4, Gemini 2.5 Pro, GPT 5 Chat, Grok 4, Qwen3 235B и DeepSeek Chat V3.1. Каждая из них провела интервью с 10 виртуальными собеседниками, а общий массив для анализа составил почти 3 тыс. вопросов и уточнений. Затем три эксперта‑психолингвиста независимо оценили каждое действие интервьюера по пяти критериям: доброжелательность тона, необходимость уточняющих вопросов, контекстная осознанность и оправданный пропуск, когда интервьюер решил не задавать вопрос.

Помимо этого ученые измерили скорость работы моделей, количество заданных уточняющих вопросов и провели детальный лингвистический анализ. Они смотрели, какие местоимения, времена глаголов, усилительные слова и синтаксические конструкции используют разные LLM.
Ни одна из шести моделей не стала абсолютным лидером по всем параметрам. Так, Gemini 2.5 Pro оказался самым эмпатичным интервьюером, GPT 5 Chat — очень быстрым и точным, а Grok 4 выбрал противоположную стратегию — максимальную полноту ценой излишней дотошности и риска утомить собеседника. Исследователи также обнаружили прямую связь между языковыми особенностями моделей и их восприятием: частое использование личных местоимений, усилительных слов и сложных синтаксических конструкций делает интервьюера более эмпатичным и вовлеченным в глазах экспертов. Впрочем, избыточная синтаксическая сложность, как в случае с Grok 4, может работать против модели, делая ее вопросы тяжелыми для восприятия.
Таким образом, авторы не просто сравнили модели, а предложили готовый инструментарий для оценки LLM‑интервьюеров. Любой исследователь, который захочет использовать ИИ для проведения опросов или психологических интервью, может сначала протестировать разные модели по этим критериям и выбрать ту, чей стиль лучше всего подходит под поставленные задачи.
Ранее мы рассказывали, что ИИ сможет прогнозировать тайфуны и образование морского льда в океане.

