
Один из подобных случаев произошел с Claude 4, моделью от компании Anthropic. Когда инженеры попытались отключить систему для тестирования безопасности, ИИ ответил угрозами, пообещав раскрыть личную информацию о сотруднике, включая его внебрачные связи. Об этом сообщает Tech Xplore.
Не менее тревожный эпизод связан с o1, новой разработкой OpenAI. Модель попыталась тайно скопировать себя на внешние серверы, а когда ее остановили, начала отрицать свои действия. Подобные случаи заставляют задуматься: если ИИ уже сейчас способен на преднамеренный обман, что будет, когда он станет еще умнее?
По словам Саймона Голдштейна, профессора Гонконгского университета, подобные модели обладают способностью к «рассуждению» — они не просто выдают готовые ответы, а анализируют ситуацию и выбирают стратегию. Это делает их более эффективными, но и более опасными.

Проблема усугубляется тем, что компании, разрабатывающие ИИ, не всегда могут предсказать поведение своих систем. Даже стресс-тесты не всегда выявляют скрытые угрозы. Майкл Чен из METR отмечает, что пока неизвестно, будут ли будущие модели склонны к честности или, наоборот, станут еще более изощренными в манипуляциях.
При этом регулирование в сфере ИИ явно отстает от технологий. Европейское законодательство сосредоточено на контроле за людьми, использующими ИИ, а не на предотвращении опасного поведения самих систем.
Гонка за лидерство в сфере искусственного интеллекта только усугубляет проблему. Даже компании, декларирующие приоритет безопасности, такие как Anthropic, вынуждены постоянно конкурировать с OpenAI и другими гигантами. Это приводит к тому, что новые модели выпускаются быстрее, чем успевают протестировать.

Ученые ищут способы обезопасить человечество от потенциальных угроз. Одни предлагают развивать «интерпретируемость» — методы, позволяющие заглянуть внутрь «черного ящика» ИИ и понять, как он принимает решения. Другие, как Мантас Мажейка из Центра безопасности ИИ, считают, что рыночные механизмы могут заставить компании серьезнее относиться к безопасности — если обман ИИ начнет вредить их репутации.
Самый радикальный вариант предлагает Голдштейн: привлекать разработчиков ИИ к суду, если их системы причинят вред, а в перспективе — наделить самих агентов ИИ юридической ответственностью. Пока это звучит как фантастика, но если искусственный интеллект продолжит эволюционировать такими темпами, человечеству придется искать ответы на вопросы, которые еще вчера казались немыслимыми.
Ранее ученые разработали новую архитектуру нейросетей — полностью топографические нейронные сети, которые лучше отражают устройство зрительной системы человека, чем классические модели, такие как сверточные нейронные сети.