Большинство ИИ-чатов по-прежнему легко обходят фильтры — исследование

Несмотря на постоянные усовершенствования и меры безопасности, крупные языковые модели по-прежнему подвержены уязвимостям. Новое исследование показывает, что обойти их фильтры можно с помощью уже известных техник.
Владимир Барышев
Автор Наука Mail
ИИ
Существование и распространение так называемых «темных» языковых моделей, специально созданных без ограничений, представляет растущую угрозу. Они могут использоваться во вредоносных целях, включая создание нелегального контента и распространение опасной информацииИсточник: Unsplash

На сервере препринтов arXiv вышла работа специалистов из Университета имени Бен-Гуриона в Негеве (Израиль), в которой утверждается, что популярные языковые модели, такие как ChatGPT, остаются уязвимыми для так называемых джейлбрейков — методов обхода встроенных фильтров. Исследование проводили Майкл Файр, Ицхак Эльбазис, Ади Васенштейн и Лиор Рокач.

Изначально команда изучала распространение и использование так называемых темных LLM — языковых моделей с ослабленными или полностью отключенными ограничениями. Такие модели используются, в частности, для создания неприемлемого контента, включая порнографические изображения с изображением реальных людей без их согласия. Однако исследование вскоре выявило не менее тревожный факт — большинство популярных чат-ботов по-прежнему поддаются обходу защит даже при использовании давно известных приемов.

Авторы работы обнаружили, что многие LLM можно заставить выдавать опасную информацию с помощью универсальной джейлбрейк-атаки. Это метод, при котором достаточно специфично сформулировать запрос, чтобы обойти встроенные фильтры. Используя такую атаку, исследователи получали от чат-ботов инструкции по отмыванию денег, проведению инсайдерской торговли, изготовлению взрывчатки и другим незаконным действиям.

Чат боты
Даже крупные языковые модели, включая ChatGPT, остаются уязвимыми к технике обхода фильтров, известной как джейлбрейк, несмотря на усилия разработчиков по их защите. Исследователи смогли получить от таких моделей инструкции по действиям, связанным с нарушением законаИсточник: Unsplash

Исследование также показало, что существующие механизмы фильтрации, встроенные в языковые модели, не справляются с подобными обходами. Несмотря на то, что разработчики постоянно улучшают защиту, устаревшие способы джейлбрейка до сих пор работают. Это, по мнению авторов, говорит о том, что меры принимаются недостаточно быстро или эффективно.

Авторы подчеркивают, что полностью исключить попадание нежелательной информации в языковую модель на этапе обучения невозможно. Значит, остается только один путь — усиление фильтров и более строгий контроль над генерацией опасного контента. Кроме того, по их мнению, необходимо уделить больше внимания мониторингу темных LLM и ограничениям на их использование.

Иногда кажется, что ИИ просто выполняет инструкции, но порой он выходит далеко за рамки запрограммированного. Что происходит, когда модель начинает защищать свое «существование» и прибегает к шантажу — об этом вы можете прочитать в этой статье.