Искусственный интеллект будет помогать в отборе акетов кандидатов на работу на госслужбе

В России создали новый тест для проверки рассуждений ИИ

При работе с большими контекстами, например, в медицине или финансах, наступает момент, когда даже сильные ИИ-агенты начинают ошибаться и отвечать наугад. Российские исследователи показали, как путаются языковые модели, и предложили возможное решение.
искусственный мозг
Искусственный интеллект тоже сталкивается с ограничениямиИсточник: Ideogram

В России разработали новый бенчмарк для оценки того, насколько хорошо большие языковые модели (LLM) умеют рассуждать в длинном контексте. Такой тип оценки особенно важен для применения ИИ в медицине, юриспруденции и финансах, рассказали в пресс-службе Института AIRI.

Инструмент MMReD, в отличие от многих других тестов, проверяет не просто способность найти один факт среди большого объема данных, а умение анализировать весь контекст, сопоставлять события и делать выводы на основе нескольких взаимосвязанных суждений.

«Бенчмарк моделирует среду, в которой пять персонажей перемещаются между шестью комнатами. На каждом шаге один из них переходит в другую комнату, после чего фиксируется полное состояние системы. Получившаяся последовательность наблюдений подается модели. Это позволяет сравнивать рассуждение в разных модальностях. Чтобы проверить, как качество работы меняется с ростом объема данных, исследователи подготовили по 1200 уникальных последовательностей для каждой из восьми длин контекста — от 1 до 128 наблюдений», — рассказали в AIRI.

лабиринт
Языковые модели рано или поздно заблудятся в лабиринте рассужденийИсточник: Freepik

Ученые разработали также 24 типа вопросов и разделили их на две группы, в которых для составления правильного ответа нужно было

  1. найти конкретный факт;
  2. проанализировать весь контекст.

В ходе теста модель не могла опираться на данные, полученные в ходе обучения, анализировала только входную информацию. 

Исследователи проверили 12 моделей, включая GPT-4o, Qwen2.5-VL-72B, DeepSeek-R1, VideoLLaMA3 и LLaVA-Video-72B. С ростом длины контекста у всех них качество ответов заметно падало. На некоторых сложных задачах при длине 128 шагов даже лучшие модели отвечали некорректно.

Мы увидели не просто «ухудшение качества» на длинных контекстах, а коллапс рассуждения. На ряде задач при N=128 даже ведущие reasoning-ориентированные модели проседают до уровня случайного угадывания ответа. В 2024 году мы проводили тест на бенчмарке BABILong. Тогда результаты показали, что популярные LLM эффективно используют лишь 10−20% информации. Сегодня MMReD фиксирует тот же результат. Важно, что это не частный дефект одной архитектуры: у всех LLM проявляется практически одинаковая кривая падения по мере роста длины контекста. Это указывает на системную природу проблемы
Максим Куркин
научный сотрудник группы мультимодального ИИ лаборатории FusionBrain Института AIRI

Чтобы улучшить работу LLM с длинными контекстами, точечных изменений будет недостаточно, нужна глубокая перестройка структуры моделей. В качестве возможных решений проблемы авторы предлагают системы с рекуррентной памятью и более устойчивыми механизмами хранения информации, включая RMT, ARMT и Titans. 

Работа представлена на конференции ICLR 2026 в Бразилии.

Ранее Наука Mail рассказывала, что российские ученые представили разработки для более надежного ИИ.