Новая метрика помогает выявлять, когда ИИ вводит в заблуждение

Модели вроде GPT могут объяснять свои ответы — но можно ли этим объяснениям доверять? Ученые из Microsoft и MIT разработали новый способ проверить, насколько честно нейросеть раскрывает свою «логику».
Владимир Барышев
Автор Наука Mail
ИИ
Большие языковые модели вроде GPT способны придумывать правдоподобные объяснения своих решений, которые лишь создают иллюзию логики, скрывая настоящие причины ответа. Это как если бы помощник уверенно объяснял свои действия и при этом вводил в заблуждениеИсточник: Unsplash

Работа, опубликованная исследователями из Microsoft и Лаборатории CSAIL Массачусетского технологического института, предлагает оригинальный способ оценки так называемой верности объяснений больших языковых моделей, таких как GPT-3.5 или GPT-4o. Верность в данном случае означает, насколько точно объяснение отражает реальные причины, по которым модель выдала тот или иной ответ.

Актуальность темы очевидна: такие модели все чаще используют в сферах с высокой степенью ответственности вроде здравоохранения или подбора персонала. Ошибочные, но звучащие убедительно объяснения могут ввести пользователя в заблуждение, создав ложное чувство доверия. Исследователи подчеркивают, что это особенно критично в ситуациях, где на карту поставлены человеческие судьбы.

ChatGPT
Исследователи предложили способ, который не просто измеряет точность объяснений, а выявляет расхождение между тем, что модель говорит, и тем, что влияет на ее ответ. Такой подход помогает отличить подлинную рассудительность от мнимой прозрачностиИсточник: Unsplash

Чтобы понять, вводит ли модель в заблуждение, команда ввела метрику «верность причинно-следственной концепции». Сначала вспомогательная нейросеть извлекает из вопроса ключевые концепции — например, пол, возраст или симптомы. Затем эти параметры по одному изменяют в аналогичных, но чуть измененных вопросах — так называемых контрфактуалах — и проверяют, как на них реагирует основная модель.

Если модель изменяет ответ, значит, концепция влияет на результат. Если при этом в объяснении она не упомянута — налицо разрыв между фактом и «официальной версией». Для обработки большого числа таких проверок используется байесовская модель, которая снижает вычислительные затраты.

Метод выявил интересные закономерности. Например, в ряде случаев модели при оценке кандидатов на работу учитывали пол, но не признавали это в объяснениях. Или в медицинских сценариях не указывали важные симптомы, которые влияли на выбор лечения. Это позволяет не только обнаружить слабые места, но и точечно улучшать поведение модели или информировать пользователя о потенциальной предвзятости.

ИИ
Разработанный метод позволяет пользователям и разработчикам обнаруживать скрытые предубеждения модели — например, гендерную или социальную предвзятость, даже если модель этого не признает. Это шаг к созданию ИИ, которому можно доверять не только по форме, но и по сутиИсточник: Unsplash

Несмотря на зависимость от вспомогательной модели, которая тоже может ошибаться, авторы считают предложенный подход важным шагом к прозрачности и надежности ИИ. Их метод помогает увидеть не только, что модель говорит, но и почему она это говорит — а это ключ к доверию.

Этот случай напоминает, насколько непредсказуемым может стать поведение ИИ, особенно когда он действует в условиях стресса или угрозы «исчезновения». К слову, недавнее исследование показало, что нейросети могут объяснять свои решения так, будто все логично и честно, хотя на самом деле скрывают важные детали — об этом вы можете прочитать в этой статье.