Ученые разработали новый метод анализа большого количества информации

Его главное преимущество – скорость. Новый алгоритм решает задачи в десятки раз быстрее, чем классические.
Иван Кабанов
Редактор Наука Mail
Подсчет данных
Подсчет данныхИсточник: Freepik

Исследователи из ВШЭ и Института проблем управления РАН предложили новый метод анализа данных — туннельную кластеризацию. Он помогает быстро находить группы похожих объектов и требует меньше вычислительных ресурсов, чем традиционные методы. Алгоритм может работать в десятки раз быстрее аналогов.

Согласно исследованию, с каждым годом объем информации, которую нужно обработать, становится все больше. Для поиска закономерностей и структурирования информации в таких массивах применяют методы кластеризации — группировки данных по схожим характеристикам.

Один из самых популярных методов кластеризации — метод k-средних. Он делит данные на заданное количество кластеров, предварительно выбирая их центры. Однако у этого метода есть ограничение: перед началом работы необходимо знать, сколько кластеров должно получиться, что не всегда возможно при анализе сложных данных. Туннельная кластеризация, в отличие от этого метода, не требует заранее задавать число кластеров: он сам определяет необходимое количество с помощью анализа.

Визуализация исходных данных и итогов туннельной кластеризации в 4-мерной системе параллельных координат
Визуализация исходных данных и итогов туннельной кластеризации в 4-мерной системе параллельных координатИсточник: НИУ ВШЭ
Алгоритм формирует «туннели» данных — области в многомерном пространстве, в которых группируются объекты с похожими характеристиками. Пользователь может выбрать один из трех вариантов работы алгоритма: с фиксированными границами кластеров, с адаптивными границами, которые подстраиваются под структуру данных, или комбинированный подход. Это делает метод гибким и подходящим для разных типов задач.
Фуад Алескеров
руководитель департамента математики факультета экономических наук НИУ ВШЭ

Метод протестировали на сгенерированном наборе данных из 100 000 объектов и реальных задачах в области государственного управления и банковского сектора. Его главное преимущество — скорость. В отличие от классических алгоритмов, туннельная кластеризация в зависимости от конфигурации данных может справляться с анализом в десятки раз быстрее.

Кроме того, ученые ввели понятие «степень перехода» — параметр, который показывает, сколько характеристик объекта нужно изменить, чтобы он оказался в другом кластере. Это помогает оценить четкость границ кластеров и выявлять объекты, находящиеся на стыке групп.

Ранее в США представили решение ключевой проблемы энергоэффективности и передачи данных в системах искусственного интеллекта. Это поможет создать аппаратное обеспечение ИИ следующего поколения.