
Исследователи из ВШЭ и Института проблем управления РАН предложили новый метод анализа данных — туннельную кластеризацию. Он помогает быстро находить группы похожих объектов и требует меньше вычислительных ресурсов, чем традиционные методы. Алгоритм может работать в десятки раз быстрее аналогов.
Согласно исследованию, с каждым годом объем информации, которую нужно обработать, становится все больше. Для поиска закономерностей и структурирования информации в таких массивах применяют методы кластеризации — группировки данных по схожим характеристикам.
Один из самых популярных методов кластеризации — метод k-средних. Он делит данные на заданное количество кластеров, предварительно выбирая их центры. Однако у этого метода есть ограничение: перед началом работы необходимо знать, сколько кластеров должно получиться, что не всегда возможно при анализе сложных данных. Туннельная кластеризация, в отличие от этого метода, не требует заранее задавать число кластеров: он сам определяет необходимое количество с помощью анализа.

Алгоритм формирует «туннели» данных — области в многомерном пространстве, в которых группируются объекты с похожими характеристиками. Пользователь может выбрать один из трех вариантов работы алгоритма: с фиксированными границами кластеров, с адаптивными границами, которые подстраиваются под структуру данных, или комбинированный подход. Это делает метод гибким и подходящим для разных типов задач.
Метод протестировали на сгенерированном наборе данных из 100 000 объектов и реальных задачах в области государственного управления и банковского сектора. Его главное преимущество — скорость. В отличие от классических алгоритмов, туннельная кластеризация в зависимости от конфигурации данных может справляться с анализом в десятки раз быстрее.
Кроме того, ученые ввели понятие «степень перехода» — параметр, который показывает, сколько характеристик объекта нужно изменить, чтобы он оказался в другом кластере. Это помогает оценить четкость границ кластеров и выявлять объекты, находящиеся на стыке групп.
Ранее в США представили решение ключевой проблемы энергоэффективности и передачи данных в системах искусственного интеллекта. Это поможет создать аппаратное обеспечение ИИ следующего поколения.