Языковые модели научили обрабатывать очень длинные тексты

Сделан шаг вперед в области обработки естественного языка. Найден метод, позволяющий языковым моделям обрабатывать до двух миллионов символов и запоминать контекст.
Софья Якимова
Автор Наука Mail
Новый метод обучил языковые модели обрабатывать тексты еще большей длины
Новый метод обучил языковые модели обрабатывать тексты еще большей длиныИсточник: Freepik

Исследователи из лаборатории AIRI представили новый метод, который позволяет языковым моделям обрабатывать до двух миллионов токенов (слов или символов) за один раз. Это значительно больше, чем раньше, и поможет моделям лучше понимать длинные тексты и сохранять контекст. Такой подход будет полезен для анализа больших документов или сложных разговоров.

В области обработки естественного языка широко используются нейросети, такие, как трансформеры. Однако у них есть ограничение на количество токенов, которые они могут обрабатывать одновременно — обычно это число составляет всего несколько тысяч. Это затрудняет работу с большими текстами. Новый метод позволяет значительно увеличить это количество без значительного роста вычислительных затрат.

Главная идея заключается в сочетании трансформеров с рекуррентным механизмом памяти. Трансформеры эффективно анализируют текст, а рекуррентные механизмы помогают запоминать информацию из предыдущих частей текста.

В процессе обработки текст разбивается на сегменты (например, предложения или абзацы), которые анализируются последовательно. Каждый новый сегмент получает векторы памяти, обновляемые на каждой итерации с учетом информации из предыдущих сегментов. Это означает, что информация о предыдущих сегментах сохраняется и учитывается при анализе текущего сегмента.

Нейросеть хранит все больше и больше информации о тексте
Нейросеть хранит все больше и больше информации о текстеИсточник: Freepik

Благодаря этому подходу модель, обученная на последовательностях длиной до 3 500 токенов, успешно справляется с контекстом до 2 млн токенов. В перспективе будет возможна обработка до 50 млн токенов.

На основе этого исследования команда проекта разработала бенчмарк BABILong, который служит для оценки моделей на длинном контексте. Этот инструмент уже используется такими компаниями, как Google, Meta и OpenAI.

В ОАЭ тем временем искусственный интеллект хотят использовать для законотворчества.