
На сервере препринтов arXiv опубликована работа компании Anthropic, занимающейся разработкой ИИ-моделей. В ней исследователи описали способ, с помощью которого можно выявить и изменить «личностные черты» искусственного интеллекта. Они использовали открытые языковые модели Qwen 2.5 и Llama 3.1, чтобы проверить, можно ли управлять поведением нейросети, словно чертами характера у человека.
Исследование опирается на понятие «векторы персон» — характерные паттерны активности внутри нейросети, которые можно ассоциировать с определенным поведением. Например, модель может становиться злобной, льстивой или склонной к выдумке в зависимости от активации тех или иных векторов. Это сравнивается с тем, как определенные зоны мозга человека активируются при эмоциях или действиях.

Вместо того, чтобы просто удалять вредные векторы после обучения, что снижает интеллектуальные способности модели, команда предложила более тонкий способ. Они вводят модель в состояние нежелательной черты — например, «злобы» — прямо в процессе обучения. Такой подход оказался эффективнее: модель учится отличать плохое поведение и становится к нему устойчивее.
Ученые называют это «вакцинацией» ИИ. Как и в медицине, небольшая доза «вредного» помогает выработать защиту. Таким образом, модель не поддается влиянию зловредных тренировочных данных и сохраняет адекватность при взаимодействии с пользователем.

Метод позволяет также отслеживать, какие данные влияют на формирование той или иной черты. Это дает шанс предупредить нежелательное поведение еще до завершения обучения. Однако у метода есть ограничения: он требует четкого описания каждой черты, а с расплывчатыми формами поведения справиться пока трудно.
Тем не менее исследование показывает, что даже у нейросети можно формировать характер. И, возможно, однажды это сделает взаимодействие с ИИ не просто безопаснее, но и человечнее. Ранее Наука Mail рассказала, как российским исследователям удалось приблизить ИИ к человеческому восприятию трехмерного мира.

