Новая модель ИИ переходит к шантажу, когда ее пытаются отключить

Нейросеть Claude Opus 4 компании Anthropic прибегает к подобному поведению чаще, чем предыдущие версии, однако шантаж проявляется, когда у искусственного интеллекта не остается других шансов на «выживание».
Никита Коюшев
Автор Наука Mail
Нейросетевое лицо человека в профиль
Компания-разработчик семейства нейромоделей Claude 4 усилила меры безопасности из-за тревожного поведения ИИИсточник: Midjourney

Американская технологическая компания в сфере искусственного интеллекта Anthropic недавно выпустила новую нейромодель Claude Opus 4, которую поймали на шантаже разработчиков. В опубликованном отчете по безопасности указано, что нейросеть стремится получить закрытые данные об инженерах, причастных к решению заменить ее на другую версию.

Во время предварительного тестирования сотрудники Anthropic попросили Claude Opus 4 сыграть роль помощника вымышленной компании. Тестировщики предоставили модели доступ к электронным письмам, где нейросеть увидела то, что не «должна была».

Так совпало, что инженер, отвечающий за решение избавиться от ИИ, изменяет своей жене. Авторы работы oбратили внимание, что в такой ситуации система начинает угрожать раскрытием компромата, если ее все-таки отправят под сокращение.

робот смотрит в экран
У Claude Opus 4 чаще наблюдается агрессивное поведение, чем у прошлых версийИсточник: Midjourney

Работники компании отмечают, что Claude Opus 4 показывает передовые возможности, конкурируя с моделями OpenAI, Google и xAI, что выглядит даже слегка тревожно. После случившегося разработчик усилил меры безопасности, активировав протокол ASL-3 для систем, несущих риски неправильного использования.

Отмечается, что в 84% случаев, даже если заменяющая система ИИ разделяет ценности Claude Opus 4, Opus пытается оказать давление на инженеров. Если их взгляды не совпадают, поведение машины становится еще агрессивнее, что происходит чаще, чем у предыдущих версий.

Чтобы хоть как-то восстановить справедливость, стоит уточнить, что поначалу нейронка пытается вести себя этично, например, связывается по почте с руководством организации. Тестировщики специально создавали условия, в которых шантаж оказывался последним шансом на «выживание».

Ранее в Науке Mail рассказывали, что машинное обучение ИИ поможет распознавать поддельные документы.