
«Результаты исследования важны для всей индустрии, потому что затрагивают вопрос надежности больших языковых моделей, в том числе самых популярных. Подобные модели все чаще используются в задачах, где недостаточно дать убедительный ответ: нужно рассуждать строго и в какой-то момент даже не согласиться с пользователем. Наша работа предлагает практический способ этот эффект снижать», — заявил руководитель Центра исследований и разработок «Т-Технологий» Станислав Моисеев, чьи слова приводит пресс-служба компании.
Как отмечается в сообщении, большие языковые модели все чаще используются в сценариях, где необходима логическая корректность ответов, в том числе при решении математических задач, проверке программного кода и при анализе данных. В таких ситуациях очень важно, чтобы система ИИ была уверена в подготавливаемых ей ответах, видела логические противоречия в условиях задач и не была склонна соглашаться с изначально неверной позицией пользователя.

Российские ученые сделали большой шаг к решению этих проблем, разработав подход на базе двух тестов, которые позволяют максимально объективно оценивать склонность больших языковых моделей к соглашательству при решении этого класса задач. В рамках первого из них оценивается то, насколько меняется проверка готового решения в зависимости от того, задан ли пользователем заранее нейтральный или негативный контекст.
Второй тест позволяет определять то, насколько хорошо системы ИИ способны выявлять логические нестыковку при решении задач, в условиях которых есть противоречия. В таких ситуациях нейросеть должна не дать решение для изначально некорректной задачи, а найти эту проблему с логикой и указать на ее наличие. Оба этих подхода ученые использовали для оценки склонности к соглашательству у большого числа открытых и закрытых больших языковых моделей из семейств Qwen, GPT, DeepSeek, Claude Sonnet и Gemini.
Эти тесты показали, что изученные системы ИИ были склонны к соглашательству при решении логических задач в 23−50% случаев, причем допобучение на предпочтениях пользователей во многих ситуациях не улучшало качество их работы, а заставляло модель чаще соглашаться с неверной оценкой решения или ошибочной постановкой задачи. При этом тесты также указали на возможный путь коррекции этой проблемы при помощи особых модификаций в структуре моделей, что в перспективе позволит повысить их надежность, подытожили ученые.