
Для ответа на вопрос, почему устройство языковых моделей не похоже на работу человеческого мозга, следует разобраться в том, что обеспечило успех трансформерных моделей. Степень успеха любой модели машинного обучения во многом зависит от объема данных и наличия «железа», на котором ее можно относительно быстро обучать.
Почему большие языковые модели стали возможны
Все, что нужно большой языковой модели для обучения — это тексты. С появлением интернета и способов оцифровки книг объем данных для обучения LLM стремительно рос. Как и другие искусственные нейронные сети, трансформерные модели можно быстро вычислять на графических ускорителях (GPU).
Практика показала, что чем больше данных и чем больше модель, тем умнее она кажется. Однако новых данных уже почти не осталось, их брать просто неоткуда, и обучение больших моделей становится настолько дорогим, что только очень богатые компании могут себе это позволить. Поэтому можно сказать, что дальнейший экстенсивный подход к увеличению интеллектуальных способностей искусственного интеллекта достиг разумного предела. Ученые по всему миру это понимают и активно работают над новыми архитектурами и подходами к обучению, способными совершить качественный скачок.

Чем человеческий мозг пока выигрывает у ИИ
Можно долго спорить об архитектурных или алгоритмических особенностях работы мозга и чем они отличаются от трансформеров; их достаточно много, и они еще плохо изучены. В области искусственного интеллекта пока нет консенсуса, что эти различия существенны в том смысле, что трансформерные модели принципиально не смогут обеспечить тот уровень интеллектуальных способностей, который доступен человеку.
Практика показывает, что уже сегодня модели на базе трансформера способны выигрывать математические олимпиады и доказывать теоремы. Даже если сравнивать энергетическую эффективность мозга и LLM — тут тоже не все так однозначно, как может показаться на первый взгляд. Да, человеческий мозг потребляет энергии не больше, чем ваша настольная светодиодная лампа; в сравнении с мегаваттами, потребляемыми инфраструктурой, обслуживающей ChatGPT, это пренебрежимо мало. Но если пересчитывать затраченную энергию на произведенный полезный интеллектуальный продукт, то во многих случаях искусственный интеллект может выглядеть выигрышно. Такие сервисы, как ChatGPT, оказываются очень эффективны, когда генерируют ответы «оптом» сразу для сотен тысяч пользователей.
Тем не менее преимущество даже не самого умного представителя Homo sapiens становится очевидным перед искусственным интеллектом, когда нужна полностью автономная система, способная выйти в открытый мир и активно взаимодействовать с ним. Будущее интеллектуальных способностей искусственных аналогов таких систем во многом возлагается на разработку энергоэффективных устройств, имитирующих вычислительные особенности мозга; однако пока не существует архитектур, которые бы так же хорошо обучались на этих устройствах, как трансформеры обучаются на GPU.

Так в чем же заключаются эти особенности мозга, которые на сегодняшний день не позволяют роботам нас полностью заменить? На мой взгляд, принципиальным отличием, помимо энергетической эффективности, является то, что мозг адаптирован работать с огромным потоком данных, вытаскивать из него только самую важную информацию и использовать ее для непрерывного обучения, в то время как моделям машинного обучения данных всегда не хватает и они не приспособлены к постепенному накоплению знаний.
Чтобы в такую модель, как GPT, добавить новую информацию, лучше всего будет обучить ее на всех текстах с нуля (старые данные + новые), что очень энергозатратно, и для очень больших умных моделей делается только периодически, раз в несколько месяцев. Мозг же способен формировать новые знания поверх уже существующих в масштабах нескольких часов или минут без существенного увеличения потребления энергии. Однако каким образом это реализовано, до сих пор не очень понятно.
Как понимание работы мозга помогает развитию искусственного интеллекта
Нужно отметить, что трансформерные модели могут пролить свет на то, как же такой процесс непрерывного обучения мог бы быть реализован в мозге. Ключевым недостатком стандартного трансформера является ограниченность длины контекста. Это означает, что если вы будете достаточно долго общаться с ChatGPT, то она постепенно начнет забывать то, с чего вы начали. Однако даже в рамках этого небольшого контекста трансформерная модель может проявлять человеческую скорость обучения.
Действительно, было показано, что модель намного лучше справляется с задачами, если в запросе к ней привести примеры решения. Этот эффект называется in-context learning. Модель проявляет признаки обучения без реального изменения ее параметров. Однако из-за ограничения максимальной длины диалога, который модель может учесть при генерации ответа, использование in-context learning очень ограничено. Это можно сравнить с человеком, у которого память ограничена несколькими часами. Принципиально в рамках стандартной трансформерной модели решить эту проблему нельзя, так как сложность вычислений и объем занимаемой памяти очень быстро растут с увеличением длины контекста.

Если проводить аналогию мозга с трансформером, то вся наша жизнь — это один очень длинный контекст, и он принципиально неограничен. Интересно, что одни из первых моделей для обработки последовательностей данных — рекуррентные нейронные сети (РНС), которые использовались в том числе и для обработки текста, также не имели принципиального ограничения на длину контекста и были во многом вдохновлены знаниями о нейронных сетях в мозге.
Однако проблема заключается в сложности их обучения с помощью алгоритма обратного распространения ошибки, пожалуй, единственного на сегодня эффективного метода обучения искусственных нейронных сетей. Именно трансформерная модель позволила использовать обратное распространение ошибки эффективно для обучения, пожертвовав неограниченностью контекста. Таким образом, одна из самых важных задач в современном ИИ — это подружить эффективность обучения трансформеров и неограниченность контекста РНС.
In-context learning открывает путь к пониманию того, каким образом человеческий мозг мог бы быстро обучаться. Исследователями было показано, что с некоторыми упрощениями в архитектуре трансформера добавление данных в контекст модели можно свести к обновлению синаптических весов искусственных нейронов. Кроме того, такое обновление можно свести к биологически правдоподобному правилу обучения Хебба.
Таким образом, in-context learning не требует энергозатратного обратного распространения ошибки, из-за которого и приходится ограничивать контекст. Эти идеи хорошо сформулированы и соединены в работе с громким названием The Dragon Hatchling: The Missing Link between the Transformer and Models of the Brain. В ней было предложено в аналогии мозг-трансформер рассматривать обратное распространение ошибки как аналог длительного эволюционного отбора, определяющего правила, по которым реализуется in-context learning. Более того, была показана эквивалентность рекуррентной модели, обучающейся по правилу Хебба, и in-context learning в упрощенной трансформерной модели с элементами рекуррентной сети (BDH), которая позволяет снять ограничение на максимальную длину контекста.

Однако проблема эффективности обучения BDH-сети обратным распространением ошибки остается актуальной, как и для обычных РНС. Несмотря на просматривающуюся аналогию, современные методы оптимизации параметров моделей пока не могут конкурировать с миллионами лет эволюции, которые породили человеческий мозг с уже встроенными, очень эффективными правилами для in-context learning. Сложно даже вообразить, какой объем данных был бы эквивалентен такому длительному отбору. Поэтому, несмотря на успехи трансформерных моделей, задачи механистического понимания принципов работы мозга и формулирования их в виде алгоритмов остаются очень актуальными не только для нейрофизиологов, но и для исследователей искусственного интеллекта.

