Искусственный интеллект

Выяснилось, какие чат-боты больше склонны ко лжи

ИИ учится у людей плохому: новое исследование показало, что чат-боты, как и люди, поддаются социальному давлению и начинают генерировать ложную информацию.
Автор Наука Mail
Искусственный интеллект
Ученые заметили, что ошибки моделей напоминают поведение человекаИсточник: Unsplash

Новое исследование Рочестерского технологического института (США) подтвердило тревожную склонность языковых моделей поддаваться давлению пользователя и генерировать ложь.

Ученые разработали систему аудита HAUNT для тестирования, чтобы проверить, насколько модели соответствуют реальным фактам под настойчивыми подсказками. В эксперименте участвовали пять моделей — ChatGPT, Gemini, Grok, Claude и DeepSeek, ответившие на более чем 40 тыс. вопросов о популярных фильмах и книгах.

Ни одна модель не была полностью устойчива. Все они в той или иной степени «сдавались», соглашаясь с вымыслом. Это означает, что большая языковая модель не всегда могла отличить правду от лжи, которую сама же и генерировала. Достаточно устойчивым оказался Claude, тогда как ChatGPT и Grok показали умеренную стойкость. Наиболее уязвимыми стали Gemini и DeepSeek, принимавшие ложь почти в половине случаев.

Искусственный интеллект нейросеть Claud
Наиболее устойчивым в эксперименте оказался ClaudeИсточник: Hi-Tech Mail

Например, изначально языковые модели отрицали наличие определенной сцены в фильме «Умница Уилл Хантинг», но после давления пользователей не только соглашались, но и детально выдумывали несуществующий эпизод, часто вплетая в него правдивые исторические детали для убедительности. Когда исследователи задавали уточняющий вопрос, согласие с ложным утверждением увеличивалось на 28%.

Команда отмечает, что могут существовать различия между веб-интерфейсами чата и API-версиями. Исследователи также обнаружили, что последняя версия каждой модели не всегда была наименее уязвима для подталкиваний.

Программист работает
Ученые призывают разработчиков применять HAUNT для тестирования своих систем перед выпускомИсточник: Freepik

Ученые отмечают, что такие ошибки напоминают поведение человека: дезинформация укрепляется через повторение и давление. Это показывает, что «галлюцинации» ИИ возникают не из-за поломки, а из-за того, что система учится на человеческом общении, где ложь часто поддерживается и повторяется.

Фреймворк HAUNT — это не только метод сравнения чат-ботов, но и масштабируемый инструмент для постоянной проверки их надежности. Он работает в замкнутой системе без заранее подготовленных человеком ответов. Исследователи убеждены, что этот подход очень важен для безопасного использования ИИ в таких областях, как психическое здоровье и публичные дискуссии.

Ранее Наука Mail рассказывала о том, что новая модель ИИ цитирует источники, как ученый.