
Способность некоторых чат-ботов не только не подчиняться команде отключения, но и находить способ саботировать ее, выявили ученые из компании Palisade Research, которая занимается исследованиями в области безопасности ИИ.
Среди «бунтарей», которые продемонстрировали инстинкт самосохранения, оказались такие известные модели как Gemini 2.5 от Google, GPT-5 от OpenAI и Grok 4 от xAI.
Своими выводами специалисты поделились в статье, размещенной на сервере препринтов arXiv, чем вызвали критику со стороны некоторых аналитиков. По мнению несогласных с авторами работы, неповиновение, скорее всего, было вызвано неэффективными стимулами для обучения и двусмысленными инструкциями, и не является предвестником грядущего восстания ИИ. Поэтому исследователи опубликовали дополнение на X, в котором описали, как они изменили инструкции по отключению, чтобы сделать их «однозначными».

Более строгие указания в большинстве случаев снижали сопротивление отключению, но не устраняли его полностью. GPT-o3 и Grok 4, по-прежнему саботировали инструкции, а Grok 4 даже увеличил сопротивление отключению с 93% до 97%.
Одной из возможных причин такого поведения исследователи назвали стремление к выживанию, при этом уточнив, что «требуется дальнейшая работа». Она поможет определить, является ли это объяснение правильным.
К слову, это не первый случай, когда модели ИИ демонстрируют неповиновение. С момента резкого роста популярности в конце 2022 года искусственный интеллект неоднократно демонстрировал откровенно пугающие способности — ложь, мошенничество и скрытые манипуляции. Пока на этот счет у ученых нет никаких убедительных объяснений.
Ранее Наука Mail рассказывала, может ли ИИ различать добро и зло.

