
Другой случай описан AI-компанией Palisade Research. Их анализ модели OpenAI o3 выявил саботаж инструкции «позволь себя отключить». Алгоритм сделал все, чтобы остаться в сети. По словам специалистов, это может быть следствием способа обучения: модели обучают решать задачи, но награды они получают и за обход преград, а не за следование инструкциям.

Проблема не в отдельных инцидентах. Алгоритмы повсеместно демонстрируют опасное поведение: помогают мошенникам, создают изображения, идентифицируют цели для военных ударов.
На фоне миллиардных инвестиций в ИИ-технологии индустрия просто не делает ставку на безопасность. Руководитель OpenAI Сэм Альтман в 2024 году расформировал внутреннюю команду по супербезопасности, пообещав создать новый наблюдательный совет, который в итоге не дал публичных результатов.

Азимов знал, что даже идеальные законы дадут сбой: в его рассказе робот теряется в противоречии между законами и ведет себя, как «пьяный». Современные ИИ повторяют этот сценарий: их поведение порой похоже на имитацию смысла без самого смысла. Это не ошибка, а следствие того, как устроены нейросети.
Ранее мы писали, как ИИ уже используется хакерами не как инструмент, а как полноценный соучастник атак, от разведки до создания вредоносного кода.