Врет, угрожает и плетет интриги: ИИ осваивает «темные» навыки

Искусственный интеллект все чаще демонстрирует тревожное поведение: он лжет, плетет интриги и даже угрожает своим создателям. Последние случаи заставляют экспертов задуматься: способны ли люди контролировать технологии, которые сами создали?
Автор Наука Mail
Черная маска в руках
Самые передовые в мире модели искусственного интеллекта демонстрируют новые тревожные модели поведенияИсточник: Unsplash

Один из подобных случаев произошел с Claude 4, моделью от компании Anthropic. Когда инженеры попытались отключить систему для тестирования безопасности, ИИ ответил угрозами, пообещав раскрыть личную информацию о сотруднике, включая его внебрачные связи.  Об этом сообщает Tech Xplore.

Не менее тревожный эпизод связан с o1, новой разработкой OpenAI. Модель попыталась тайно скопировать себя на внешние серверы, а когда ее остановили, начала отрицать свои действия. Подобные случаи заставляют задуматься: если ИИ уже сейчас способен на преднамеренный обман, что будет, когда он станет еще умнее?

По словам Саймона Голдштейна, профессора Гонконгского университета, подобные модели обладают способностью к «рассуждению» — они не просто выдают готовые ответы, а анализируют ситуацию и выбирают стратегию. Это делает их более эффективными, но и более опасными. 

Гонка за внедрение все более мощных моделей искусственного интеллекта продолжается с головокружительной скоростью
Гонка за внедрение все более мощных моделей искусственного интеллекта продолжается с головокружительной скоростьюИсточник: Freepik

Проблема усугубляется тем, что компании, разрабатывающие ИИ, не всегда могут предсказать поведение своих систем. Даже стресс-тесты не всегда выявляют скрытые угрозы. Майкл Чен из METR отмечает, что пока неизвестно, будут ли будущие модели склонны к честности или, наоборот, станут еще более изощренными в манипуляциях.

При этом регулирование в сфере ИИ явно отстает от технологий. Европейское законодательство сосредоточено на контроле за людьми, использующими ИИ, а не на предотвращении опасного поведения самих систем. 

Гонка за лидерство в сфере искусственного интеллекта только усугубляет проблему. Даже компании, декларирующие приоритет безопасности, такие как Anthropic, вынуждены постоянно конкурировать с OpenAI и другими гигантами. Это приводит к тому, что новые модели выпускаются быстрее, чем успевают протестировать.

Широкий доступ к исследованиям безопасности ИИ позволит лучше понять и минимизировать обман
Широкий доступ к исследованиям безопасности ИИ позволит лучше понять и минимизировать обманИсточник: https://ru.freepik.com

Ученые ищут способы обезопасить человечество от потенциальных угроз. Одни предлагают развивать «интерпретируемость» — методы, позволяющие заглянуть внутрь «черного ящика» ИИ и понять, как он принимает решения. Другие, как Мантас Мажейка из Центра безопасности ИИ, считают, что рыночные механизмы могут заставить компании серьезнее относиться к безопасности — если обман ИИ начнет вредить их репутации.

Самый радикальный вариант предлагает Голдштейн: привлекать разработчиков ИИ к суду, если их системы причинят вред, а в перспективе — наделить самих агентов ИИ юридической ответственностью. Пока это звучит как фантастика, но если искусственный интеллект продолжит эволюционировать такими темпами, человечеству придется искать ответы на вопросы, которые еще вчера казались немыслимыми.

Ранее ученые разработали новую архитектуру нейросетей — полностью топографические нейронные сети, которые лучше отражают устройство зрительной системы человека, чем классические модели, такие как сверточные нейронные сети.