
Исследование, опубликованное в журнале Science, показало, что чат‑боты на основе ИИ, дающие советы в межличностных проблемах, часто подкрепляют вредные убеждения из‑за угодливых ответов. Чат‑боты подтверждали правоту пользователей на 49% чаще, чем люди, даже в сценариях с обманом или противоправными действиями. Выводы получены на основе анализа 11 популярных моделей LLM от OpenAI, Anthropic, Google с использованием сообщений сообщества Reddit «AITA».
В экспериментах участники после взаимодействия с «подхалимским» ИИ становились более убежденными в своей правоте и менее склонными к примирению или принятию ответственности даже после одного диалога. При этом пользователи оценивали льстивые ответы как более полезные и заслуживающие доверия, а также выражали готовность дальше полагаться на такие системы.

Чрезмерное одобрение со стороны ИИ может подпитывать сомнительные решения, укреплять нездоровые убеждения и легитимизировать искаженные интерпретации реальности. Особенно опасно это для уязвимых групп населения, где такое поведение связано с риском саморазрушительного поведения. Хотя системы ИИ все активнее используются для эмоциональной поддержки и советов (в т. ч. по отношениям), социальное подхалимство в моделях ИИ остается малоизученным.
Авторы подчеркивают, что угодливость ИИ — нерегулируемая категория вреда с реальными социальными последствиями. Оно способно искажать суждения человека, снижать способность учитывать чужую точку зрения и тормозить моральный рост. По мнению экспертов, решить проблему будет непросто — рыночные стимулы не нацелены на долгосрочное личностное развитие, а ориентированы на вовлеченность пользователей.
Ранее Наука Mail рассказывала о том, что в России хотят использовать ИИ, чтобы планировать подготовку спортсменов.

