
Ученые Института искусственного интеллекта МГУ представили новую версию компактного инструмента для поиска по научным публикациям. Разработка SciRus-tiny 3.5-zh описана в научной публикации, а вместе с моделью в открытый доступ выложен бенчмарк zh-ruSciBench для оценки русско-китайского научного поиска.
Проблема, которую решает модель, хорошо знакома исследователям — научных текстов становится слишком много, а доступ к ним все сложнее. Современные языковые модели умеют анализировать большие массивы данных, но требуют дорогих вычислительных ресурсов и потому редко подходят для небольших научных проектов. Дополнительная сложность заключается в многоязычности науки — значительная часть работ публикуется не на английском, и поиск между языками, особенно между русским и китайским, до сих пор оставался неточным.

Семейство моделей SciRus изначально создавалось как практичное решение для научных текстов. По качеству поиска они сопоставимы с лучшими международными моделями, оцениваемыми бенчмарком MTEB, но при этом в десятки и сотни раз компактнее. Эти модели уже используются в eLibrary.ru, улучшают поиск по научным статьям, а вокруг проекта сформирована экосистема открытых тестов, включая ruSciBench и ruSciFact.
В версии 3.5-zh разработчики обновили архитектуру модели, предложив более современный подход, который позволяет точнее учитывать связи между словами, лучше работать с длинными текстами и снижать вычислительные затраты. За счет этого обработка данных ускорилась на 10−20% без потери качества.
Обучение модели проходило в два этапа. Сначала она анализировала более 50 миллионов научных текстов на русском, английском и китайском языках из крупных научных баз. Затем модель училась определять смысловую близость публикаций на 158 млн пар заголовков, аннотаций и связанных по цитированию статей.
Главным результатом стал стабильный кросс-язычный поиск между русским и китайским языками даже без прямых примеров таких пар в данных. Модель научилась находить смысловые связи через третий язык, который выступает промежуточным звеном. Это позволяет масштабировать подход на другие языковые комбинации без специальных параллельных корпусов.
Благодаря компактности SciRus-tiny 3.5-zh можно использовать без графических ускорителей, например, в цифровых библиотеках, рекомендательных сервисах, классификации научных статей и анализе научных направлений.
Ранее Наука Mail рассказывала о том, что в России предложили способ снизить риск галлюцинаций у нейросетей.

