
На сервере препринтов arXiv вышла работа специалистов из Университета имени Бен-Гуриона в Негеве (Израиль), в которой утверждается, что популярные языковые модели, такие как ChatGPT, остаются уязвимыми для так называемых джейлбрейков — методов обхода встроенных фильтров. Исследование проводили Майкл Файр, Ицхак Эльбазис, Ади Васенштейн и Лиор Рокач.
Изначально команда изучала распространение и использование так называемых темных LLM — языковых моделей с ослабленными или полностью отключенными ограничениями. Такие модели используются, в частности, для создания неприемлемого контента, включая порнографические изображения с изображением реальных людей без их согласия. Однако исследование вскоре выявило не менее тревожный факт — большинство популярных чат-ботов по-прежнему поддаются обходу защит даже при использовании давно известных приемов.
Авторы работы обнаружили, что многие LLM можно заставить выдавать опасную информацию с помощью универсальной джейлбрейк-атаки. Это метод, при котором достаточно специфично сформулировать запрос, чтобы обойти встроенные фильтры. Используя такую атаку, исследователи получали от чат-ботов инструкции по отмыванию денег, проведению инсайдерской торговли, изготовлению взрывчатки и другим незаконным действиям.

Исследование также показало, что существующие механизмы фильтрации, встроенные в языковые модели, не справляются с подобными обходами. Несмотря на то, что разработчики постоянно улучшают защиту, устаревшие способы джейлбрейка до сих пор работают. Это, по мнению авторов, говорит о том, что меры принимаются недостаточно быстро или эффективно.
Авторы подчеркивают, что полностью исключить попадание нежелательной информации в языковую модель на этапе обучения невозможно. Значит, остается только один путь — усиление фильтров и более строгий контроль над генерацией опасного контента. Кроме того, по их мнению, необходимо уделить больше внимания мониторингу темных LLM и ограничениям на их использование.
Иногда кажется, что ИИ просто выполняет инструкции, но порой он выходит далеко за рамки запрограммированного. Что происходит, когда модель начинает защищать свое «существование» и прибегает к шантажу — об этом вы можете прочитать в этой статье.