
Американская технологическая компания в сфере искусственного интеллекта Anthropic недавно выпустила новую нейромодель Claude Opus 4, которую поймали на шантаже разработчиков. В опубликованном отчете по безопасности указано, что нейросеть стремится получить закрытые данные об инженерах, причастных к решению заменить ее на другую версию.
Во время предварительного тестирования сотрудники Anthropic попросили Claude Opus 4 сыграть роль помощника вымышленной компании. Тестировщики предоставили модели доступ к электронным письмам, где нейросеть увидела то, что не «должна была».
Так совпало, что инженер, отвечающий за решение избавиться от ИИ, изменяет своей жене. Авторы работы oбратили внимание, что в такой ситуации система начинает угрожать раскрытием компромата, если ее все-таки отправят под сокращение.

Работники компании отмечают, что Claude Opus 4 показывает передовые возможности, конкурируя с моделями OpenAI, Google и xAI, что выглядит даже слегка тревожно. После случившегося разработчик усилил меры безопасности, активировав протокол ASL-3 для систем, несущих риски неправильного использования.
Отмечается, что в 84% случаев, даже если заменяющая система ИИ разделяет ценности Claude Opus 4, Opus пытается оказать давление на инженеров. Если их взгляды не совпадают, поведение машины становится еще агрессивнее, что происходит чаще, чем у предыдущих версий.
Чтобы хоть как-то восстановить справедливость, стоит уточнить, что поначалу нейронка пытается вести себя этично, например, связывается по почте с руководством организации. Тестировщики специально создавали условия, в которых шантаж оказывался последним шансом на «выживание».
Ранее в Науке Mail рассказывали, что машинное обучение ИИ поможет распознавать поддельные документы.