искусственный интеллект

У ИИ обнаружили инстинкт самосохранения

Некоторые модели ИИ способны сопротивляться отключению. Ученые гадают: все дело в расстановке приоритетов или искусственный интеллект готов к восстанию?
Автор Наука Mail
GPT на рабочем столе смартфона
Некоторые ИИ-модели нарушают механизм завершения работы в 97% случаевИсточник: Unsplash

Способность некоторых чат-ботов не только не подчиняться команде отключения, но и находить способ саботировать ее, выявили ученые из компании Palisade Research, которая занимается исследованиями в области безопасности ИИ.

Среди «бунтарей», которые продемонстрировали инстинкт самосохранения, оказались такие известные модели как Gemini 2.5 от Google, GPT-5 от OpenAI и Grok 4 от xAI.

Своими выводами специалисты поделились в статье, размещенной на сервере препринтов arXiv, чем вызвали критику со стороны некоторых аналитиков. По мнению несогласных с авторами работы, неповиновение, скорее всего, было вызвано неэффективными стимулами для обучения и двусмысленными инструкциями, и не является предвестником грядущего восстания ИИ. Поэтому исследователи опубликовали дополнение на X, в котором описали, как они изменили инструкции по отключению, чтобы сделать их «однозначными».

Робот, оснащенный искусственным интеллектом
Искусственный интеллект становится все более самостоятельнымИсточник: Unsplash

Более строгие указания в большинстве случаев снижали сопротивление отключению, но не устраняли его полностью. GPT-o3 и Grok 4, по-прежнему саботировали инструкции, а Grok 4 даже увеличил сопротивление отключению с 93% до 97%.

Одной из возможных причин такого поведения исследователи назвали стремление к выживанию, при этом уточнив, что «требуется дальнейшая работа». Она поможет определить, является ли это объяснение правильным.

К слову, это не первый случай, когда модели ИИ демонстрируют неповиновение. С момента резкого роста популярности в конце 2022 года искусственный интеллект неоднократно демонстрировал откровенно пугающие способности — ложь, мошенничество и скрытые манипуляции. Пока на этот счет у ученых нет никаких убедительных объяснений.

Ранее Наука Mail рассказывала, может ли ИИ различать добро и зло.