
Ученые выяснили, что большие языковые модели, созданные специально для того, чтобы «рассуждать» и решать сложные логические задачи (как самые продвинутые версии от Claude или Deepseek), на самом деле справляются с этим хуже, чем ожидалось.
Напомним, что работа по созданию языковых моделей и нейросетей (то есть моделей, имитирующих работу сети нейронов мозга) велась учеными, начиная с 1970-х годов. Нейросети не программируются в привычном смысле, а обучаются на массивах данных. Ключевой сдвиг в обучении произошел с появлением архитектуры трансформеров в 2017 году. Такие нейросети имели внутреннее устройство, которое значительно ускоряло обучение моделей. Так как данных нейросетям скармливали много, и они, как следствие, имели множество параметров, такие нейросети стали называть большими языковыми моделями (LLM).
Нейросети научились неплохо прогнозировать продолжение текста на разных языках и распознавать различные паттерны в данных. Однако это не был истинный искусственный интеллект в представлении большинства. LLM могли нести чушь, так как не понимали смысла генерируемого ими текста. После выхода первых больших языковых моделей галлюцинации и ограниченные возможности ИИ заставили ученых пересмотреть подходы к обучению и работе ИИ.

Чтобы помочь LLM решать сложные задачи, требующие использования логики, нескольких шагов и перепроверки ответов, исследователи создали большие рассуждающие модели (LRM). Это также помогло ученым понять, как именно работают модели при генерации ответа для пользователя.
LRM, прежде чем давать ответ, выстраивали логику, «рассуждали». Их ответы стали больше похожи на человеческие. В этом им помогали такие подходы как «цепочка» или «дерево» мыслей (CoT, ToT). AI-модели научились перепроверять себя: для этого использовались мультиагентное обучение, обучение с подкреплением на основе отзывов людей и подход «смесь экспертов».
Однако новое исследование компании Apple показало удивительную вещь: чем сложнее становится задача, которую нужно решить LRM, тем меньше модели пытаются ее «обдумать», и в итоге часто выдают неверный ответ.

Чтобы разобраться в проблеме, ученые Apple проверили, как такие «думающие» модели справляются с классическими головоломками. В качестве тестовых заданий они выбрали ханойскую башню (перемещение колец разного диаметра по трем стержням по определенным правилам), игру в шашки, задачу переправы через реку (где нужно перевезти все на другой берег, соблюдая определенные правила) и Blocks World (сборка башен из кубиков). Сложность этих заданий можно было плавно увеличивать.
Три уровня сложности — три разных результата
На простых уровнях задач обычные версии моделей, не имеющие опции reasoning (режима «размышлений») справлялись с заданиями даже лучше своих «думающих» собратьев. Они быстрее находили верное решение и тратили на это меньше вычислительных мощностей (своего рода умственных усилий).
На задачах средней сложности LRM начинали показывать преимущество. Они чаще находили правильный ответ, но только после того, как перебирали много неверных путей. Это было похоже на поиск выхода из лабиринта, когда человек проходит все коридоры и только так находит выход (верное решение).

Сюрприз ждал ученых на самых сложных уровнях задач. Здесь абсолютно все LRM, даже самые выдающиеся «мыслители», терпели крах. Точность их ответов падала практически до нуля. И самое странное: вместо того, чтобы сильнее напрячься и, возможно, «подумать» подольше, модели на сложных задачах начинали размышлять меньше.
LRM, заточенные на рассуждения, прекращали выстраивать логику, как будто сдавались раньше времени. При этом исследователи не ограничивали их ресурсы, то есть нейросети вполне могли бы продолжать поиск верного ответа.

Почему так происходит?
Чтобы разобраться, исследователи заглянули внутрь процесса «мышления» ИИ-моделей. На легких задачах программы иногда находили ответ сразу, но потом начинали «сомневаться» и даже выдавали неверные варианты. На средних уровнях головоломок они упорно искали, часто ошибались, но в итоге могли найти верный путь. А вот на сложных задачах модели переставали генерировать правильные последовательности действий вообще. Ученые ранее назвали это «недостаточным размышлением» (underthinking).
Даже если исследователи подсказывали первые шаги решения, на определенном уровне сложности LRM все равно переставали выдавать хоть что-то стоящее. Также выяснилось, что успех модели зависит от типа головоломки. Например, с ханойской башней «рассуждающие» нейросети справлялись лучше. Причина, вероятно, в том, что примеры такой задачи чаще использовались в данных, на которых модели обучают. В то же время более сложные варианты задачи переправы через реку ставили модели в тупик.
Что это открытие значит для будущего ИИ?
Главный вывод экспертов Apple: у современных LRM есть фундаментальное ограничение, не позволяющее им решать сложные задачи, очевидно подвластные человеческому мозгу. Они не умеют вырабатывать универсальные стратегии для решения задач. Когда сложность переходит определенный порог, их механизмы «рассуждений» перестают работать, как бы разработчики ни пытались помочь им «думать».

Это важное открытие, потому что многие крупные игроки AI-рынка, такие как OpenAI, ставят на «рассуждения» как на основной путь дальнейшего развития AI-моделей и улучшения способностней искусственного интеллекта. Увеличение размеров датасетов (обучающих данных) уже перестало давать большой прирост способностей.
Другие исследования также подтверждают: существующие reasoning-методы в основном делают ответы AI-моделей более надежными в конкретных областях (например, в математике или программировании), но не наделяют их принципиально новыми возможностями.
Мы попросили эксперта Института AIRI прокомментировать результаты данного исследования.
Работа подтверждает то, что многим в AI-сообществе давно было ясно: reasoning сам по себе не превращает модель в суперинтеллект и не дает бесконечного прироста качества. Авторы показывают, что при высокой сложности задачи даже думающие LLM теряют устойчивость, но это скорее ожидаемое ограничение, чем открытие. Хотел бы также отметить, что многие неправильно интерпретируют один из ключевых результатов этого исследования: говоря, что обычные модели точнее в решении простых задач. На самом деле сравнение шло по метрике pass@k, где обычным моделям разрешили многократные попытки на том же количестве сгенерированных токенов — и хотя бы один раз они давали правильный ответ или угадывали. Но при этом думающие модели обычно дают более надежные и осмысленные ответы с первого раза. Reasoning — это полезный прием, но не панацея: эффект есть, но его пределы зависят как от сложности задач, так и от масштабов самих моделей.
Некоторые ученые также предупреждают как коллег, так и обычных пользователей, что существующие модели не стоит очеловечивать. Их «цепочки мыслей» — это не настоящее логическое мышление, присущее человеку. Нейросети по-прежнему не понимают (и не могут понимать) смысла, а лишь строят сложные статистические расчеты.