В ВШЭ научились сжимать большие языковые модели без потерь в качестве

Исследователи из Института искусственного интеллекта и цифровых наук НИУ ВШЭ создали метод сжатия больших языковых моделей, который позволяет уменьшить их объем на 25-36 %. Разработка под названием ProcrustesGPT не требует дополнительного обучения и сохраняет точность работы нейросетей.
Автор Наука Mail
Языковая модель, сжимать которые научились без потери качества
Упрощение модели путем снижения точности или удаления связей ведет к потере качества и требует длительного дообученияИсточник: Freepik

Современные языковые модели вроде ChatGPT и LLaMA демонстрируют высокие результаты в генерации текста и машинном переводе. Однако их размеры создают трудности для использования и хранения, делая эти технологии дорогими. Обычные способы сжатия, включающие уменьшение точности вычислений или удаление нейронных связей, часто требуют длительного дообучения и могут снижать качество ответов. Перед учеными стояла задача найти способ быстро сократить объем моделей, сохранив их вычислительные способности. 

Сотрудники Научно-учебной лаборатории матричных и тензорных методов в машинном обучении предложили решение, основанное на математических преобразованиях. Как пояснили в пресс-службе вуза, суть метода ProcrustesGPT заключается в применении к внутренним весам нейросети ортогональных преобразований. Эти преобразования действуют как повороты пространства: они меняют ориентацию данных, но не искажают их структуру и взаимосвязи. Такая математическая операция подготавливает веса модели к дальнейшему сжатию с использованием структурированных матриц, которые требуют значительно меньше памяти для хранения.

Языковая модель, сжимать которую научились без потери качества
Огромный размер больших языковых моделей, несмотря на их эффективность, ведет к высоким затратам на эксплуатациюИсточник: Freepik

Название метода отсылает к мифу о Прокрусте. Как объясняет стажер-исследователь лаборатории Екатерина Гришина, задача состоит в том, чтобы найти идеальное преобразование, которое подгоняет веса модели под более простую форму без потери смысла. В ходе работы ученые испытали два типа таких структур: суммы кронекеровских произведений и GS-матрицы. Важной особенностью разработки является возможность ее применения к уже существующим моделям без необходимости их дообучения. Эксперименты проводились на открытых архитектурах OPT и LLaMA2.

Эксперименты подтвердили, что ProcrustesGPT сокращает объем LLM примерно на треть, сохраняя 90–95% их эффективности. Новая разработка точнее аналогов (например, SliceGPT): на моделях LLaMA2 ее преимущество достигает 9–10%. Результаты исследования опубликованы в ACL Findings 2025.

Заведующий лабораторией Максим Рахуба отмечает, что подобные методы сжатия открывают путь для внедрения больших языковых моделей в устройства с ограниченными ресурсами. Речь идет о мобильных телефонах и различных гаджетах интернета вещей, что сделает ИИ-технологии  более доступными для повседневного применения.

Ранее Наука Mail рассказывала о создании алгоритмов для проверки ИИ-систем на «галлюцинации».