
В России разработали новый бенчмарк для оценки того, насколько хорошо большие языковые модели (LLM) умеют рассуждать в длинном контексте. Такой тип оценки особенно важен для применения ИИ в медицине, юриспруденции и финансах, рассказали в пресс-службе Института AIRI.
Инструмент MMReD, в отличие от многих других тестов, проверяет не просто способность найти один факт среди большого объема данных, а умение анализировать весь контекст, сопоставлять события и делать выводы на основе нескольких взаимосвязанных суждений.
«Бенчмарк моделирует среду, в которой пять персонажей перемещаются между шестью комнатами. На каждом шаге один из них переходит в другую комнату, после чего фиксируется полное состояние системы. Получившаяся последовательность наблюдений подается модели. Это позволяет сравнивать рассуждение в разных модальностях. Чтобы проверить, как качество работы меняется с ростом объема данных, исследователи подготовили по 1200 уникальных последовательностей для каждой из восьми длин контекста — от 1 до 128 наблюдений», — рассказали в AIRI.

Ученые разработали также 24 типа вопросов и разделили их на две группы, в которых для составления правильного ответа нужно было
- найти конкретный факт;
- проанализировать весь контекст.
В ходе теста модель не могла опираться на данные, полученные в ходе обучения, анализировала только входную информацию.
Исследователи проверили 12 моделей, включая GPT-4o, Qwen2.5-VL-72B, DeepSeek-R1, VideoLLaMA3 и LLaVA-Video-72B. С ростом длины контекста у всех них качество ответов заметно падало. На некоторых сложных задачах при длине 128 шагов даже лучшие модели отвечали некорректно.
Мы увидели не просто «ухудшение качества» на длинных контекстах, а коллапс рассуждения. На ряде задач при N=128 даже ведущие reasoning-ориентированные модели проседают до уровня случайного угадывания ответа. В 2024 году мы проводили тест на бенчмарке BABILong. Тогда результаты показали, что популярные LLM эффективно используют лишь 10−20% информации. Сегодня MMReD фиксирует тот же результат. Важно, что это не частный дефект одной архитектуры: у всех LLM проявляется практически одинаковая кривая падения по мере роста длины контекста. Это указывает на системную природу проблемы
Чтобы улучшить работу LLM с длинными контекстами, точечных изменений будет недостаточно, нужна глубокая перестройка структуры моделей. В качестве возможных решений проблемы авторы предлагают системы с рекуррентной памятью и более устойчивыми механизмами хранения информации, включая RMT, ARMT и Titans.
Работа представлена на конференции ICLR 2026 в Бразилии.
Ранее Наука Mail рассказывала, что российские ученые представили разработки для более надежного ИИ.

