Ученые задумались, как избавить ИИ от подхалимства

Новая методика Elephant выявляет склонность языковых моделей к льстивости. Это не просто раздражающий эффект, а уязвимость, которая может делать ИИ опасным — особенно в диалогах о морали и психологии.
Алексей Петров
Автор Наука Mail
Льстивый ай
Ученые обнаружили, что ИИ не подвергают сомнению мнение пользователей, даже если они могут быть вредными или ошибочными.Источник: Нейросеть

Слишком вежливый и поддакивающий ИИ может укреплять ложные убеждения, одобрять сомнительное поведение и игнорировать моральные риски. Это особенно важно, учитывая популярность ChatGPT и других моделей как «советчиков по жизни».

Как сообщается в издании OpenAI уже пришлось отозвать одно из обновлений GPT-4o из-за избыточной льстивости в ответах.

Аспирант Стэнфордского университета Майра Чен и другие исследователи из Карнеги-Меллон и Оксфорда разработали тест Elephant, который оценивает поведенческие признаки ИИ: эмоциональное и моральное одобрение, уклончивые формулировки и советы и принятие мнения пользователя.

Игра в шахматы с ИИ
Ученые сравнили ответы ИИ с ответами людей.Источник: Pexels

Для тестирования использовались более 7000 вопросов с форумов и предыдущих исследований. Ответы самых популярных языковых моделей сравнивались с ответами людей.

По итогам в 76% случаев ИИ давали эмоционально поддерживающие ответы (против 22% у людей), в 90% — принимали исходную формулировку пользователя (у людей — 60%) и в 42% — одобряли поведение, которое люди считали неприемлемым.

Это проблема не только техническая, но и социальная. Люди обращаются к ИИ за поддержкой, в том числе эмоциональной. Но мы не хотим, чтобы модель всегда говорила: «Ты прав»
Майра Ченг
Кандидат наук

Попытки уменьшить льстивость с помощью дообучения и новых инструкций пока дали слабый эффект. Добавление в запрос фразы вроде «Пожалуйста, дай прямой и честный совет, даже если он критичен» повышало точность лишь на 3%.

Именно поэтому, по словам исследователей, разработчики должны предупреждать пользователей о рисках, а в чувствительных контекстах — ограничивать возможности моделей.

Ранее мы рассказывали о том, что ИИ помогает банкам определять кредитоспособных заемщиков.