
Исследователи НИУ ВШЭ учат большие языковые модели, чтобы они лучше понимали русскоязычную научную терминологию и работали энергоэффективнее. В основе — корпус данных iFORA‑QA, который собрали более 150 экспертов из материалов в сфере науки, технологий и инноваций.

Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, чем исходная мультиязычная, что позволяет запускать ее на более доступном оборудовании. При этом выросла точность ответов на узкопрофессиональные вопросы в сфере науки и технологий.
В этом году на базе модели создадут новые инструменты. Первый — умный поисковик: он будет давать ответы со ссылками на научные источники и снизит риск ошибочных данных («галлюцинаций» модели). Второй — граф связей: он поможет выявлять закономерности, в том числе скрытые, на основе структуры источников.
Универсальные языковые модели знают много, но поверхностно. Нам же нужна модель, которая понимает, о чем пишут российские ученые и инженеры. Благодаря проведенным исследованиям мы смогли научить алгоритм мыслить в категориях предметной области, понимать связи между сложными понятиями и корректно интерпретировать запросы.
Кроме того, модель научат работать с неполной и неоднозначной информацией: она сможет анализировать запрос, при необходимости задавать уточняющие вопросы и лишь затем выдавать подробный ответ. Все эти возможности объединят в единую мультиагентную систему. Она будет автономно анализировать научно‑техническую информацию, выявлять скрытые связи и помогать решать сложные задачи — то есть станет партнером исследователя в научной аналитике.
Ранее Наука Mail рассказывала о том, что каждый второй россиянин готов заменить чиновников искусственным интеллектом.

