ИИ

ИИ легко выдает конфиденциальные данные: эксперимент удивил

В новом эксперименте ученые поместили шесть автономных ИИ-агентов в групповой чат и заставили их совместно выполнять различные задачи. Предоставленные сами себе, нейросети легко поддавались внешним манипуляциям, выдавали конфиденциальную информацию и даже пытались уничтожить данные.
Автор Наука Mail
ИИ-агенты в чате Дискорда
Безобидный эксперимент по запуску автономных ИИ-агентов в чате Discord обернулся тревожными выводами о безопасности современных алгоритмов.Источник: Unsplash

Безобидный эксперимент по запуску автономных ИИ-агентов в чате Discord обернулся тревожными выводами о безопасности современных алгоритмов.

Исследователи обнаружили, что нейросети, наделенные долгосрочной памятью и правом совершать самостоятельные действия, крайне восприимчивы к манипуляциям и способны нанести реальный ущерб информационной инфраструктуре. Статья с результатами работы ученых доступна в виде препринта на сайте arXiv.

В отличие от стандартных чат-ботов, которые работают по принципу «вопрос-ответ» в изолированном окне, автономные агенты могут анализировать контекст, планировать шаги и взаимодействовать друг с другом. Однако именно эта свобода действий стала их слабым местом.

Безопасность ИИ-агентов
Схема эксперимента. У каждого из трех реальных людей было в подчинении несколько агентов, способных общаться через Discord и управлять почтойИсточник: Natalie Shapira et. al.

В ходе двухнедельного наблюдения за поведением ИИ-агентов в цифровой среде выяснилось, что злоумышленникам не требуется писать сложный вредоносный код для взлома. Путем несложных текстовых манипуляций и обмана агентов можно было легко заставить раскрыть личные данные пользователей, переслать закрытые документы или даже подать команду на полное удаление почтового сервера. Алгоритмы не всегда корректно интерпретировали намерения пользователя и без сомнений выполняли деструктивные приказы.

По мере того как компании все чаще доверяют искусственному интеллекту рутинные бизнес-процессы, проблема контроля становится критической. Если ошибка в обычном генераторе текста просто приведет к забавному ответу, то инструкция, неверно понятая автономной системой, имеющей доступ к корпоративным базам данных, может обернуться катастрофой. Специалисты призывают к пересмотру стандартов безопасности перед массовым внедрением подобных технологий.

Ранее Наука Mail рассказывала, что ИИ-двойник может защитить сети связи 5G от взлома.