В Apple обнаружили «фундаментальное ограничение» в мышлении AI-моделей

Чем сложнее задача, тем меньше думают о правильном решении. Ученые Apple обнаружили парадокс в рассуждениях моделей искусственного интеллекта.
Автор Наука Mail
Нейросеть
Нейросети с помощью специального оборудования имитируют работу клеток нервной ткани человека. В отличие от классических систем у них нет единого хранилища данных (памяти) и отдельной системы для обработки информации и вычислений (процессора).Источник: Unsplash

Ученые выяснили, что большие языковые модели, созданные специально для того, чтобы «рассуждать» и решать сложные логические задачи (как самые продвинутые версии от Claude или Deepseek), на самом деле справляются с этим хуже, чем ожидалось.

Напомним, что работа по созданию языковых моделей и нейросетей (то есть моделей, имитирующих работу сети нейронов мозга) велась учеными, начиная с 1970-х годов. Нейросети не программируются в привычном смысле, а обучаются на массивах данных. Ключевой сдвиг в обучении произошел с появлением архитектуры трансформеров в 2017 году. Такие нейросети имели внутреннее устройство, которое значительно ускоряло обучение моделей. Так как данных нейросетям скармливали много, и они, как следствие, имели множество параметров, такие нейросети стали называть большими языковыми моделями (LLM).

Нейросети научились неплохо прогнозировать продолжение текста на разных языках и распознавать различные паттерны в данных. Однако это не был истинный искусственный интеллект в представлении большинства. LLM могли нести чушь, так как не понимали смысла генерируемого ими текста. После выхода первых больших языковых моделей галлюцинации и ограниченные возможности ИИ заставили ученых пересмотреть подходы к обучению и работе ИИ.

Рендер, схематично изображающий языки и преобразование речи в токены
Токены — это основные «кусочки» текста (часто части слов или короткие слова), на которые нейросеть разбивает информацию для своей работы. Каждый токен требует вычислений: чем больше токенов модель использует для «размышления» (анализа или генерации ответа), тем больше ресурсов она тратит.Источник: Unsplash

Чтобы помочь LLM решать сложные задачи, требующие использования логики, нескольких шагов и перепроверки ответов, исследователи создали большие рассуждающие модели (LRM). Это также помогло ученым понять, как именно работают модели при генерации ответа для пользователя.

LRM, прежде чем давать ответ, выстраивали логику, «рассуждали». Их ответы стали больше похожи на человеческие. В этом им помогали такие подходы как «цепочка» или «дерево» мыслей (CoT, ToT). AI-модели научились перепроверять себя: для этого использовались мультиагентное обучение, обучение с подкреплением на основе отзывов людей и подход «смесь экспертов».

Однако новое исследование компании Apple показало удивительную вещь: чем сложнее становится задача, которую нужно решить LRM, тем меньше модели пытаются ее «обдумать», и в итоге часто выдают неверный ответ.

Три типа задач, которые решали модели
Примеры головоломок, которые решали модели в исследовании.Источник: Shojaee et al.

Чтобы разобраться в проблеме, ученые Apple проверили, как такие «думающие» модели справляются с классическими головоломками. В качестве тестовых заданий они выбрали ханойскую башню (перемещение колец разного диаметра по трем стержням по определенным правилам), игру в шашки, задачу переправы через реку (где нужно перевезти все на другой берег, соблюдая определенные правила) и Blocks World (сборка башен из кубиков). Сложность этих заданий можно было плавно увеличивать.

Три уровня сложности — три разных результата

На простых уровнях задач обычные версии моделей, не имеющие опции reasoning (режима «размышлений») справлялись с заданиями даже лучше своих «думающих» собратьев. Они быстрее находили верное решение и тратили на это меньше вычислительных мощностей (своего рода умственных усилий).

На задачах средней сложности LRM начинали показывать преимущество. Они чаще находили правильный ответ, но только после того, как перебирали много неверных путей. Это было похоже на поиск выхода из лабиринта, когда человек проходит все коридоры и только так находит выход (верное решение).

Роборука
ИИ стал помощником человека во многих вопросах, однако он пока еще не способен протянуть руку помощи в любом делеИсточник: Unsplash

Сюрприз ждал ученых на самых сложных уровнях задач. Здесь абсолютно все LRM, даже самые выдающиеся «мыслители», терпели крах. Точность их ответов падала практически до нуля. И самое странное: вместо того, чтобы сильнее напрячься и, возможно, «подумать» подольше, модели на сложных задачах начинали размышлять меньше.

LRM, заточенные на рассуждения, прекращали выстраивать логику, как будто сдавались раньше времени. При этом исследователи не ограничивали их ресурсы, то есть нейросети вполне могли бы продолжать поиск верного ответа.

Графики работы моделей Claude 3.7 с reasoning и без такого "продвинутого" режима.
На простых задачах модели без рассуждений показывают лучшую точность, используя меньше токенов. По мере усложнения задач модели с рассуждениями догоняют результат «младших братьев», но ценой использования большего количества токенов.Источник: Shojaee et al.

Почему так происходит?

Чтобы разобраться, исследователи заглянули внутрь процесса «мышления» ИИ-моделей. На легких задачах программы иногда находили ответ сразу, но потом начинали «сомневаться» и даже выдавали неверные варианты. На средних уровнях головоломок они упорно искали, часто ошибались, но в итоге могли найти верный путь. А вот на сложных задачах модели переставали генерировать правильные последовательности действий вообще. Ученые ранее назвали это «недостаточным размышлением» (underthinking).

Даже если исследователи подсказывали первые шаги решения, на определенном уровне сложности LRM все равно переставали выдавать хоть что-то стоящее. Также выяснилось, что успех модели зависит от типа головоломки. Например, с ханойской башней «рассуждающие» нейросети справлялись лучше. Причина, вероятно, в том, что примеры такой задачи чаще использовались в данных, на которых модели обучают. В то же время более сложные варианты задачи переправы через реку ставили модели в тупик.

Что это открытие значит для будущего ИИ?

Главный вывод экспертов Apple: у современных LRM есть фундаментальное ограничение, не позволяющее им решать сложные задачи, очевидно подвластные человеческому мозгу. Они не умеют вырабатывать универсальные стратегии для решения задач. Когда сложность переходит определенный порог, их механизмы «рассуждений» перестают работать, как бы разработчики ни пытались помочь им «думать».

Графики, показывающее изменение производительности базовых и reasoning-моделей по мере усложнения задач
Claude 3.7 Sonnet Thinking и Deepseek-R1 сохраняют точность на средней сложности во всех четырех типах головоломок. По мере усложнения задач производительность базовых моделей падает быстрее. При высокой сложности задачи почти каждая модель «думать» перестает.Источник: Shojaee et al.

Это важное открытие, потому что многие крупные игроки AI-рынка, такие как OpenAI, ставят на «рассуждения» как на основной путь дальнейшего развития AI-моделей и улучшения способностней искусственного интеллекта. Увеличение размеров датасетов (обучающих данных) уже перестало давать большой прирост способностей.

Другие исследования также подтверждают: существующие reasoning-методы в основном делают ответы AI-моделей более надежными в конкретных областях (например, в математике или программировании), но не наделяют их принципиально новыми возможностями.

Мы попросили эксперта Института AIRI прокомментировать результаты данного исследования.

Работа подтверждает то, что многим в AI-сообществе давно было ясно: reasoning сам по себе не превращает модель в суперинтеллект и не дает бесконечного прироста качества. Авторы показывают, что при высокой сложности задачи даже думающие LLM теряют устойчивость, но это скорее ожидаемое ограничение, чем открытие. Хотел бы также отметить, что многие неправильно интерпретируют один из ключевых результатов этого исследования: говоря, что обычные модели точнее в решении простых задач. На самом деле сравнение шло по метрике pass@k, где обычным моделям разрешили многократные попытки на том же количестве сгенерированных токенов — и хотя бы один раз они давали правильный ответ или угадывали. Но при этом думающие модели обычно дают более надежные и осмысленные ответы с первого раза. Reasoning — это полезный прием, но не панацея: эффект есть, но его пределы зависят как от сложности задач, так и от масштабов самих моделей.
Антон Разжигаев
руководитель группы «Интерпретируемый ИИ» лаборатории FusionBrain Института AIRI

Некоторые ученые также предупреждают как коллег, так и обычных пользователей, что существующие модели не стоит очеловечивать. Их «цепочки мыслей» — это не настоящее логическое мышление, присущее человеку. Нейросети по-прежнему не понимают (и не могут понимать) смысла, а лишь строят сложные статистические расчеты.