
«Большие языковые модели обладают колоссальным объемом знаний о мире и о том, как люди формулируют свои предпочтения. Но использовать их напрямую в рекомендательных сервисах — все равно что приглашать профессора лингвистики для ответа на каждый вопрос в чате. Наш подход берет у “профессора” самое ценное — понимание глубинных мотивов пользователя — и передает это быстрому и легкому “ассистенту”, — пояснил директор Центра практического искусственного интеллекта Сбербанка Николай Тиден, чьи слова приводит пресс-служба банка.
Как отмечают исследователи, существующие рекомендательные системы ИИ способны хорошо улавливать временные цепочки действий пользователя, но при этом они хуже понимают его истинные предпочтения, особенно если данных о человеке мало. С этой задачей хорошо справляются большие языковые модели, однако для их работы требуется огромное количество времени и вычислительных ресурсов.
Российские ученые объединили плюсы легковесных рекомендательных систем ИИ и больших языковых моделей при помощи разработанного ими варианта дистилляции знаний, одного из вариантов разработки систем ИИ. В рамках этого подхода менее крупная модель ИИ обучается на результатах работы более масштабной нейросети, чем ученые воспользовались для «переноса» способности больших языковых моделей к пониманию пользователей в более простую рекомендательную систему.
В рамках этого подхода на этапе обучения модели по истории взаимодействий и текстовым метаданным формируется профиль пользователя, в том числе его предпочтения и особенности поведения. Затем он превращается в вектор, специальный математический инструмент, с которым выравниваются внутренние представления самой рекомендательной модели. В итоге, когда система выдает рекомендации реальному человеку, ресурсоемкая большая языковая модель уже не требуется.
Последующие проверки работы этого подхода показали, что точность рекомендаций повысилась примерно на 5,6%, и при этом новый алгоритм сохранил высокую скорость работы — он реагирует на запросы примерно в 190 раз быстрее, чем это делала система на базе больших языковых моделей. Это говорит в пользу того, что новый метод переноса знаний поможет компаниям повышать качество рекомендаций без необходимости поддерживать работу тяжелой большой языковой модели, подытожили ученые.