
«Мы показали, что произвольный и нефиксированный выбор порога “холодного старта” (отделяющего новых пользователей и товары от уже известных системе объектов — прим. ТАСС) может радикально изменить выводы исследования. Прозрачная методология необходима для корректного обучения и сравнения рекомендательных алгоритмов», — пояснил научный сотрудник группы «Технологии персонализации» Института AIRI Никита Сухоруков, чьи слова приводит пресс-служба организации.
Ученые впервые всесторонне изучили то, как исследователи в области разработки рекомендательных систем решают так называемую проблему «холодного старта». Она проявляется в том, что в наборах данных, используемых для обучения и работы подобных ИИ, присутствуют сведения о новых пользователях, о предпочтениях которых мало чего известно, а также относительно новые товары, с которыми юзеры относительно мало взаимодействовали.
Наличие подобных данных в выборке часто ведет к ухудшению качества рекомендаций, из-за чего разработчики ИИ отфильтровывают их, опираясь на некий минимальный порог взаимодействий. Российские ученые заинтересовались, какие пороги обычно выбирают разработчики и как они обосновывают их. Для получения подобных сведений Сухоруков и его коллеги проанализировали сотни работ, представленных в последние три года на одной из крупнейших научных конференций по рекомендательным системам.
Проведенный исследователями анализ неожиданно показал, что лишь 10% участников этой конференции обосновывали необходимость фильтрации, при этом никто не пояснял в своих научных работах, почему выбран конкретный порог, что может привести к заметному ухудшению качества рекомендаций при неудачном выборе порога. Это побудило Сухорукова и его коллег разработать подход, который в перспективе позволит автоматическим образом подбирать порог отсечения для конкретных систем ИИ и наборов данных.
Используя эту методику, ученые изучили качество работы четырех популярных ИИ-систем с наборами данных, включающими в себя рейтинги фильмов и предметов искусства, а также отзывы о косметике и оценки пива. Проведенные исследователями расчеты показали, что оптимальный порог для отсечения различался не только для разных задач, но и разных рекомендательных систем, некоторым из которых требовалось в три раза больше взаимодействий, чем другим алгоритмам. Все это говорит о необходимости корректного подбора порога фильтрации для каждого индивидуального случая, подытожили исследователи.