
Современные методы согласования ИИ с предпочтениями пользователей (RLHF) требуют больших вычислительных ресурсов и медленно сходятся. Основная проблема — модель наград оценивает весь сгенерированный текст одной общей оценкой, не указывая, какие именно фрагменты удачны, а какие нет.
Ученые Университета Иннополис предложили использовать для распределения наград данные о взгляде человека: на какие части текста он обращает внимание, в какой последовательности и как долго задерживает взгляд, рассказали в пресс-службе вуза.
Сбор данных о предпочтениях людей для обучения нейросетей — дорогостоящая процедура. Обычно модель наград сжимает множество факторов до одного числа. Недавно международные ученые представили подход с плотной наградой, когда оценка распределяется между частями ответа на основе внимания самой модели. Мы сделали шаг вперед и стали использовать данные о взгляде человека — это более естественно
Исследователи протестировали два метода интеграции взгляда на англоязычных текстах с моделями LLaMa и Mistral. Первый метод обучает модели наград с учетом спрогнозированных признаков взгляда. Второй, разработанный в Иннополисе, накладывается поверх любой модели наград и использует предсказания взгляда для распределения итоговой оценки по отдельным словам. Оба метода показали ускорение в 1,5–2 раза без потери качества, но вариант исследователей оказался проще и адаптивнее — он не требует изменений внутри самой модели.

Исследование подтвердило, что человеческий взгляд — значимый и ранее недооцененный сигнал для обучения ИИ. Он не просто ускоряет процесс, а делает его целенаправленным: подобно учителю, который вместо общей оценки указывает на конкретные ошибки. При этом данные взгляда могут быть заменены синтетическими, что решает проблему их нехватки. В будущем ученые планируют применить подход к другим методам обучения и расширить эксперименты на новые языки. Статья опубликована в сборнике международной конференции EMNLP.
Ранее Наука Mail писала о том, что нейросеть помогает искать пропавших людей.
