Искусственный интеллект

Найден способ не дать ИИ стать злым

Ученые буквально нашли способ не допустить рождения Скайнета — как в «Терминаторе». Они научились распознавать и отключать «злые» черты у искусственного интеллекта еще на этапе обучения, пока тот не решил поработить человечество.
Автор Наука Mail
Злая личность ИИ теперь под контролем разработчиков
Ученые научились находить в мозге нейросети те самые точки, где прячется ее характерИсточник: Midjourney

На сервере препринтов arXiv опубликована работа компании Anthropic, занимающейся разработкой ИИ-моделей. В ней исследователи описали способ, с помощью которого можно выявить и изменить «личностные черты» искусственного интеллекта. Они использовали открытые языковые модели Qwen 2.5 и Llama 3.1, чтобы проверить, можно ли управлять поведением нейросети, словно чертами характера у человека.

Исследование опирается на понятие «векторы персон» — характерные паттерны активности внутри нейросети, которые можно ассоциировать с определенным поведением. Например, модель может становиться злобной, льстивой или склонной к выдумке в зависимости от активации тех или иных векторов. Это сравнивается с тем, как определенные зоны мозга человека активируются при эмоциях или действиях.

Векторы персон помогают управлять характером нейросети
Поведение искусственного интеллекта можно не просто исправить, а заранее «вакцинировать» от злаИсточник: Unsplash

Вместо того, чтобы просто удалять вредные векторы после обучения, что снижает интеллектуальные способности модели, команда предложила более тонкий способ. Они вводят модель в состояние нежелательной черты — например, «злобы» — прямо в процессе обучения. Такой подход оказался эффективнее: модель учится отличать плохое поведение и становится к нему устойчивее.

Ученые называют это «вакцинацией» ИИ. Как и в медицине, небольшая доза «вредного» помогает выработать защиту. Таким образом, модель не поддается влиянию зловредных тренировочных данных и сохраняет адекватность при взаимодействии с пользователем.

Ученые нашли способ изменить поведение искусственного интеллекта
У нейросетей появляется что-то вроде личности, и теперь человек может ее формироватьИсточник: Unsplash

Метод позволяет также отслеживать, какие данные влияют на формирование той или иной черты. Это дает шанс предупредить нежелательное поведение еще до завершения обучения. Однако у метода есть ограничения: он требует четкого описания каждой черты, а с расплывчатыми формами поведения справиться пока трудно.

Тем не менее исследование показывает, что даже у нейросети можно формировать характер. И, возможно, однажды это сделает взаимодействие с ИИ не просто безопаснее, но и человечнее. Ранее Наука Mail рассказала, как российским исследователям удалось приблизить ИИ к человеческому восприятию трехмерного мира.