
Новое исследование Рочестерского технологического института (США) подтвердило тревожную склонность языковых моделей поддаваться давлению пользователя и генерировать ложь.
Ученые разработали систему аудита HAUNT для тестирования, чтобы проверить, насколько модели соответствуют реальным фактам под настойчивыми подсказками. В эксперименте участвовали пять моделей — ChatGPT, Gemini, Grok, Claude и DeepSeek, ответившие на более чем 40 тыс. вопросов о популярных фильмах и книгах.
Ни одна модель не была полностью устойчива. Все они в той или иной степени «сдавались», соглашаясь с вымыслом. Это означает, что большая языковая модель не всегда могла отличить правду от лжи, которую сама же и генерировала. Достаточно устойчивым оказался Claude, тогда как ChatGPT и Grok показали умеренную стойкость. Наиболее уязвимыми стали Gemini и DeepSeek, принимавшие ложь почти в половине случаев.

Например, изначально языковые модели отрицали наличие определенной сцены в фильме «Умница Уилл Хантинг», но после давления пользователей не только соглашались, но и детально выдумывали несуществующий эпизод, часто вплетая в него правдивые исторические детали для убедительности. Когда исследователи задавали уточняющий вопрос, согласие с ложным утверждением увеличивалось на 28%.
Команда отмечает, что могут существовать различия между веб-интерфейсами чата и API-версиями. Исследователи также обнаружили, что последняя версия каждой модели не всегда была наименее уязвима для подталкиваний.

Ученые отмечают, что такие ошибки напоминают поведение человека: дезинформация укрепляется через повторение и давление. Это показывает, что «галлюцинации» ИИ возникают не из-за поломки, а из-за того, что система учится на человеческом общении, где ложь часто поддерживается и повторяется.
Фреймворк HAUNT — это не только метод сравнения чат-ботов, но и масштабируемый инструмент для постоянной проверки их надежности. Он работает в замкнутой системе без заранее подготовленных человеком ответов. Исследователи убеждены, что этот подход очень важен для безопасного использования ИИ в таких областях, как психическое здоровье и публичные дискуссии.
Ранее Наука Mail рассказывала о том, что новая модель ИИ цитирует источники, как ученый.

