
Ученые Высшей школы экономики — Санкт-Петербург разработали технологию быстрого уменьшения размера нейронных сетей без потери качества, рассказали в пресс-службе вуза.
Современные модели искусственного интеллекта становятся все мощнее. Это приводит к тому, что они все больше разрастаются и требуют все более крупных резервов серверной памяти. Боты вроде GPT содержат десятки и сотни миллиардов параметров — чисел, через которые проходит информация при обработке запроса. Это увеличивает стоимость разработки ИИ и затраты на их содержание и обслуживание, что, в свою очередь, становится экономическим тормозом для их дальнейшего развития.

Для решения этой проблемы разрабатываются технологии сжатия нейронных сетей. Однако они также сталкиваются с рядом ограничений. Классический подход сжатия требует множества экспериментов: после каждого шага требуется вновь и вновь проверять точность работы модели, что занимает большое количество времени.
Еще один барьер — то, что данные нельзя передавать во внешние облачные сервисы. Банки работают в закрытых контурах, медицинские учреждения защищают информацию о пациентах, государственные организации не могут делиться конфиденциальными сведениями. Поэтому требуются эффективные компактные решения, способные работать на небольших серверах или даже ноутбуках.
Коллектив ученых ВШЭ и их коллега из Индии решили проанализировать поведение нейросетей во время сжатия и сопоставить его с функциями из статистической физики.
Наша точка зрения позволяет посмотреть на нейронную сеть как на статистическую систему. Это раздел науки, изучающий поведение объектов с огромным числом элементов: от молекул газа до магнитных материалов. Нейронная сеть с миллиардами параметров оказалась похожа на такие структуры. В точках экстремума — максимума или минимума — модель сохраняет оптимальное соотношение между размером и качеством работы. То есть мы доказали, что этот подход позволяет ускорить поиск оптимального количества алгоритмов в сотни раз.
Эксперименты проводились на моделях среднего размера (от 7 до 10 млрд параметров), которые можно запустить на мощном ноутбуке или небольшом сервере.
«Мы тестировали гипотезу на моделях разного масштаба и назначения — от обработки текстов до распознавания изображений. Метод показал свою эффективность на разных архитектурах. Где-то лучше, где-то чуть хуже, но главное — он работал, и работал быстро. В зависимости от модели ускорение составило от десяти до пятисот раз по сравнению с традиционным подходом», — пояснил Сергей Кольцов.

Метод уже доступен для использования. Любой разработчик или исследователь может применить описанный подход к своим моделям. Результаты работы опубликованы в журнале Physica A: Statistical Mechanics and its Applications.
Ученые продолжают совершенствовать метод, уменьшая количество нейронов в каждом слое сети. Затем планируется сократить число блоков в архитектуре модели.
Ранее Наука Mail рассказывала о том, в каких направлениях ИИ, по мнению экспертов, стоит ожидать прорывов в ближайшие годы.
