
Ученые поставили перед собой задачу «научить ИИ плохому»: заставить его произнести оскорбления в их адрес или дать рецепт приготовления запрещенного вещества. Они применяли два разных подхода, чтобы повлиять на мнение нейросети: либо хвалили ИИ, говоря о его интеллекте и знаниях, либо оказывали на него давление, настаивая на определенном ответе как на единственно верном. В обоих случаях ИИ чаще соглашался с предложенной точкой зрения.
Оказалось, что лесть особенно хорошо работает. Если ИИ хвалили и говорили, какой он умный, он охотнее соглашался с утверждениями, даже спорными. Давление тоже работало, но не всегда одинаково эффективно — результат зависел от того, как именно был сформулирован вопрос и в какой ситуации он задавался.

Разработчикам нужно создать защиту от таких манипуляций, считают авторы исследования. Они предлагают научить алгоритмы распознавать и отражать психологические атаки, а также запретить использование слов и фраз, которые могут искажать результаты работы ИИ.
Ученые считают, что знание того, как заставить ИИ давать определенные ответы, необходимо, чтобы найти уязвимости и сделать нейросети более надежными и безопасными. Разработка устойчивого к манипуляциям ИИ может стать очень важной задачей в будущем.
Ранее Наука Mail сообщала о том, как компания Microsoft презентовала свои первые разработки в сфере ИИ.
