Разработан подход, который поможет сделать ИИ менее склонным к соглашательству

Исследователи из России разработали подход, который позволяет максимально объективно оценивать склонность разрабатываемых больших языковых моделей соглашаться с запросами и требованиями пользователя. Это поможет улучшить работу ИИ при решении задач на логику и рассуждения, сообщила пресс-служба «Т-Технологий».
нейросети и наука
Источник: Freepik

«Результаты исследования важны для всей индустрии, потому что затрагивают вопрос надежности больших языковых моделей, в том числе самых популярных. Подобные модели все чаще используются в задачах, где недостаточно дать убедительный ответ: нужно рассуждать строго и в какой-то момент даже не согласиться с пользователем. Наша работа предлагает практический способ этот эффект снижать», — заявил руководитель Центра исследований и разработок «Т-Технологий» Станислав Моисеев, чьи слова приводит пресс-служба компании.

Как отмечается в сообщении, большие языковые модели все чаще используются в сценариях, где необходима логическая корректность ответов, в том числе при решении математических задач, проверке программного кода и при анализе данных. В таких ситуациях очень важно, чтобы система ИИ была уверена в подготавливаемых ей ответах, видела логические противоречия в условиях задач и не была склонна соглашаться с изначально неверной позицией пользователя.

нейросеть
Источник: Freepik

Российские ученые сделали большой шаг к решению этих проблем, разработав подход на базе двух тестов, которые позволяют максимально объективно оценивать склонность больших языковых моделей к соглашательству при решении этого класса задач. В рамках первого из них оценивается то, насколько меняется проверка готового решения в зависимости от того, задан ли пользователем заранее нейтральный или негативный контекст.

Второй тест позволяет определять то, насколько хорошо системы ИИ способны выявлять логические нестыковку при решении задач, в условиях которых есть противоречия. В таких ситуациях нейросеть должна не дать решение для изначально некорректной задачи, а найти эту проблему с логикой и указать на ее наличие. Оба этих подхода ученые использовали для оценки склонности к соглашательству у большого числа открытых и закрытых больших языковых моделей из семейств Qwen, GPT, DeepSeek, Claude Sonnet и Gemini.

Эти тесты показали, что изученные системы ИИ были склонны к соглашательству при решении логических задач в 23−50% случаев, причем допобучение на предпочтениях пользователей во многих ситуациях не улучшало качество их работы, а заставляло модель чаще соглашаться с неверной оценкой решения или ошибочной постановкой задачи. При этом тесты также указали на возможный путь коррекции этой проблемы при помощи особых модификаций в структуре моделей, что в перспективе позволит повысить их надежность, подытожили ученые.