
Современные языковые модели вроде ChatGPT и LLaMA демонстрируют высокие результаты в генерации текста и машинном переводе. Однако их размеры создают трудности для использования и хранения, делая эти технологии дорогими. Обычные способы сжатия, включающие уменьшение точности вычислений или удаление нейронных связей, часто требуют длительного дообучения и могут снижать качество ответов. Перед учеными стояла задача найти способ быстро сократить объем моделей, сохранив их вычислительные способности.
Сотрудники Научно-учебной лаборатории матричных и тензорных методов в машинном обучении предложили решение, основанное на математических преобразованиях. Как пояснили в пресс-службе вуза, суть метода ProcrustesGPT заключается в применении к внутренним весам нейросети ортогональных преобразований. Эти преобразования действуют как повороты пространства: они меняют ориентацию данных, но не искажают их структуру и взаимосвязи. Такая математическая операция подготавливает веса модели к дальнейшему сжатию с использованием структурированных матриц, которые требуют значительно меньше памяти для хранения.

Название метода отсылает к мифу о Прокрусте. Как объясняет стажер-исследователь лаборатории Екатерина Гришина, задача состоит в том, чтобы найти идеальное преобразование, которое подгоняет веса модели под более простую форму без потери смысла. В ходе работы ученые испытали два типа таких структур: суммы кронекеровских произведений и GS-матрицы. Важной особенностью разработки является возможность ее применения к уже существующим моделям без необходимости их дообучения. Эксперименты проводились на открытых архитектурах OPT и LLaMA2.
Эксперименты подтвердили, что ProcrustesGPT сокращает объем LLM примерно на треть, сохраняя 90–95% их эффективности. Новая разработка точнее аналогов (например, SliceGPT): на моделях LLaMA2 ее преимущество достигает 9–10%. Результаты исследования опубликованы в ACL Findings 2025.
Заведующий лабораторией Максим Рахуба отмечает, что подобные методы сжатия открывают путь для внедрения больших языковых моделей в устройства с ограниченными ресурсами. Речь идет о мобильных телефонах и различных гаджетах интернета вещей, что сделает ИИ-технологии более доступными для повседневного применения.
Ранее Наука Mail рассказывала о создании алгоритмов для проверки ИИ-систем на «галлюцинации».
