
Работа, опубликованная исследователями из Microsoft и Лаборатории CSAIL Массачусетского технологического института, предлагает оригинальный способ оценки так называемой верности объяснений больших языковых моделей, таких как GPT-3.5 или GPT-4o. Верность в данном случае означает, насколько точно объяснение отражает реальные причины, по которым модель выдала тот или иной ответ.
Актуальность темы очевидна: такие модели все чаще используют в сферах с высокой степенью ответственности вроде здравоохранения или подбора персонала. Ошибочные, но звучащие убедительно объяснения могут ввести пользователя в заблуждение, создав ложное чувство доверия. Исследователи подчеркивают, что это особенно критично в ситуациях, где на карту поставлены человеческие судьбы.

Чтобы понять, вводит ли модель в заблуждение, команда ввела метрику «верность причинно-следственной концепции». Сначала вспомогательная нейросеть извлекает из вопроса ключевые концепции — например, пол, возраст или симптомы. Затем эти параметры по одному изменяют в аналогичных, но чуть измененных вопросах — так называемых контрфактуалах — и проверяют, как на них реагирует основная модель.
Если модель изменяет ответ, значит, концепция влияет на результат. Если при этом в объяснении она не упомянута — налицо разрыв между фактом и «официальной версией». Для обработки большого числа таких проверок используется байесовская модель, которая снижает вычислительные затраты.
Метод выявил интересные закономерности. Например, в ряде случаев модели при оценке кандидатов на работу учитывали пол, но не признавали это в объяснениях. Или в медицинских сценариях не указывали важные симптомы, которые влияли на выбор лечения. Это позволяет не только обнаружить слабые места, но и точечно улучшать поведение модели или информировать пользователя о потенциальной предвзятости.

Несмотря на зависимость от вспомогательной модели, которая тоже может ошибаться, авторы считают предложенный подход важным шагом к прозрачности и надежности ИИ. Их метод помогает увидеть не только, что модель говорит, но и почему она это говорит — а это ключ к доверию.
Этот случай напоминает, насколько непредсказуемым может стать поведение ИИ, особенно когда он действует в условиях стресса или угрозы «исчезновения». К слову, недавнее исследование показало, что нейросети могут объяснять свои решения так, будто все логично и честно, хотя на самом деле скрывают важные детали — об этом вы можете прочитать в этой статье.