Российская разработка помогла европейским ученым ускорить обучение ИИ в 60 раз

Созданный в России крупнейший набор данных для обучения рекомендательных систем помог исследователям из Европы разработать подход, который позволяет в десятки раз ускорить обучение ИИ без потери качества. Об этом ТАСС сообщила пресс-служба «Яндекса».
Нейросеть мозг ИИ
Источник: Unsplash

«Работа голландских ученых с российским датасетом наглядно демонстрирует практическую ценность открытых данных для ускорения разработки ИИ-рекомендаций. Долгое время доступ исследовательского сообщества к крупномасштабным промышленным данным был ограничен. “Яндекс”, открыв Yambda, одним из первых устранил этот разрыв, предоставив уникальный инструмент для глобального прорыва в этой области», — говорится в сообщении.

Как отмечается в сообщении, в начале лета 2025 года исследователи из «Яндекса» разработали и опубликовали в открытом доступе один из крупнейших в мире наборов данных для развития рекомендательных систем, полная версия которых включает в себя пять миллиардов элементов. Он был построен на базе обезличенных данных «Яндекс. Музыки» и включал в себя агрегированные прослушивания, лайки, дизлайки, а также некоторые характеристики музыкальных записей.

Набор обучающих данных был недавно использован учеными из Амстердамского университета для разработки нового подхода к обучению рекомендательных систем, основанных на базе созданного китайскими учеными алгоритма SEATER. Он позволяет организовать все товары или треки в умный иерархический каталог, похожий на дерево папок на компьютере.

В теории, каталог позволяет системе быстрее и точнее выдавать рекомендации, однако при этом его подготовка занимает очень много времени в процессе обучения. В реальных продуктах это мешало часто обновлять рекомендации и быстро реагировать на изменения пользовательских предпочтений. Нидерландские исследователи подготовили два альтернативных подхода, позволяющих ускорять подготовку каталога, и проверили их на данных «Яндекса».

Эти проверки показали, что один из новых алгоритмов сократил время подготовки данных с 82 минут до 83 секунд — почти в 60 раз, при этом он почти не повлиял на качество рекомендаций, благодаря чему созданный китайскими специалистами алгоритм по-прежнему превосходит уже популярные и применяющиеся на рынке системы. Как отметили в «Яндексе», весь код улучшенной модели SEATER был выложен в открытый доступ, что наглядно демонстрирует пользу от публикации и использования больших наборов данных для разработки и обучения ИИ.