
Исследователи из лаборатории AIRI представили новый метод, который позволяет языковым моделям обрабатывать до двух миллионов токенов (слов или символов) за один раз. Это значительно больше, чем раньше, и поможет моделям лучше понимать длинные тексты и сохранять контекст. Такой подход будет полезен для анализа больших документов или сложных разговоров.
В области обработки естественного языка широко используются нейросети, такие, как трансформеры. Однако у них есть ограничение на количество токенов, которые они могут обрабатывать одновременно — обычно это число составляет всего несколько тысяч. Это затрудняет работу с большими текстами. Новый метод позволяет значительно увеличить это количество без значительного роста вычислительных затрат.
Главная идея заключается в сочетании трансформеров с рекуррентным механизмом памяти. Трансформеры эффективно анализируют текст, а рекуррентные механизмы помогают запоминать информацию из предыдущих частей текста.
В процессе обработки текст разбивается на сегменты (например, предложения или абзацы), которые анализируются последовательно. Каждый новый сегмент получает векторы памяти, обновляемые на каждой итерации с учетом информации из предыдущих сегментов. Это означает, что информация о предыдущих сегментах сохраняется и учитывается при анализе текущего сегмента.

Благодаря этому подходу модель, обученная на последовательностях длиной до 3 500 токенов, успешно справляется с контекстом до 2 млн токенов. В перспективе будет возможна обработка до 50 млн токенов.
На основе этого исследования команда проекта разработала бенчмарк BABILong, который служит для оценки моделей на длинном контексте. Этот инструмент уже используется такими компаниями, как Google, Meta и OpenAI.
В ОАЭ тем временем искусственный интеллект хотят использовать для законотворчества.