Избыточная тренировка снижает стабильность ИИ-моделей

Представьте, что чем больше учишь ИИ, тем больше он ломается. Новое исследование ведущих университетов США показало, что чрезмерное обучение делает языковые модели хрупкими, снижая их способность адаптироваться к новым задачам.
Владимир Барышев
Слишком большое количество данных приводит к сбоям в нейросетях
Слишком большое количество данных приводит к сбоям в нейросетяхИсточник: Freepik

Группа исследователей из университета Карнеги-Меллон, Стэнфорда, Гарварда и Принстона (США) обнаружила, что чрезмерное предобучение больших языковых моделей может снизить их способность к последующей донастройке.

В новой статье, опубликованной на сервере препринтов arXiv, ученые показали, что увеличение объема предобучающих данных свыше определенного порога может привести к ухудшению результатов при тестировании.

В последние годы преобладающий тренд заключался в том, что чем больше модель обучается, тем лучше она становится. Однако в данном исследовании эксперименты с разными вариантами модели OLMo-1B продемонстрировали обратное.

Оптимизация больших языковых моделей не всегда может помочь справиться с проблемами
Оптимизация больших языковых моделей не всегда может помочь справиться с проблемами

Одна версия модели обучалась на 2,3 трлн токенов, другая — на 3 трлн. При сравнении работы обеих версий с помощью различных бенчмарков, таких, как ARC и AlpacaEval, оказалось, что модель, обученная на большем объеме данных, показала результаты примерно на 3% хуже.

Ученые называют это явление «катастрофическим переобучением» и связывают его с так называемой «прогрессивной чувствительностью». По их мнению, с увеличением числа токенов модель становится все более хрупкой. При донастройке, которая добавляет своего рода «шум» в данные, происходят обратные эффекты, стирающие ранее достигнутые улучшения. После достижения так называемой точки перегиба (inflection point) дальнейшее обучение только ухудшает стабильность модели и снижает ее применимость для конкретных задач.

Чтобы проверить свою гипотезу, исследователи добавили гауссовский шум к модели и получили аналогичный спад качества работы. Это подтверждает, что чрезмерное обучение может оказывать негативное влияние и указывает на необходимость точного определения оптимального объема предобучения.

Схема, иллюстрирующая, как масштабирование оптимальной скорости обучения может повлиять на оценки модели в зависимости от токенов предварительного обучения.
Схема, иллюстрирующая, как масштабирование оптимальной скорости обучения может повлиять на оценки модели в зависимости от токенов предварительного обучения.Источник: arXiv

В заключение авторы подчеркивают, что разработчикам больших языковых моделей предстоит тщательно оценивать, сколько обучающих данных действительно достаточно. Возможно, потребуется разработка новых методов, позволяющих продолжать обучение без достижения критической точки, где устойчивость модели начинает разрушаться. Эти выводы могут существенно повлиять на будущее развитие ИИ, поскольку баланс между качеством предобучения и возможностями донастройки становится все более важным в условиях стремительного роста размеров моделей.

О генеративном искусственном интеллекте, известном под названием DeepSeek, можно прочитать в статье нашего эксперта.