
Российские ученые из Института AIRI разработали инструмент, который позволяет оценить, насколько хорошо большие языковые модели справляются с реальными задачами химиков. В отличие от тестов на простое извлечение фактов, новый эталон проверяет способность нейросетей решать последовательные, логически связанные задачи — такие, с какими сталкиваются исследователи при разработке лекарств и катализаторов.
Основой работы стал новый бенчмарк, составленный из композиций базовых химических задач: определение продуктов реакций, предсказание их свойств, генерация описаний молекул по формуле и других. Каждая цепочка заданий моделирует логику повседневной работы химика. Например, сначала модель должна определить, какое вещество получится в результате реакции, а затем — оценить, обладает ли оно ценными свойствами, например, биоактивностью. Такой подход отражает многоступенчатое рассуждение, необходимое для поиска новых соединений.
Чтобы создать бенчмарк, исследователи объединили существующие датасеты по реакциям и свойствам молекул. Это позволило сделать каждую задачу максимально информативной. Сравнивались как универсальные языковые модели общего назначения, так и специализированные химические LLM.
Результаты оказались неоднозначными. Универсальные модели нередко давали содержательные ответы, но их решения хуже оценивались автоматическими метриками. Напротив, специализированные химические LLM чаще выдавали формально правильные ответы, но не всегда достигали необходимого уровня по метрикам качества.
«Наш бенчмарк призван помочь разработчикам языковых моделей лучше понимать архитектурные ограничения нейросетей. Он может стать основой для дальнейших исследований в области автоматизации химических рассуждений», — подчеркнул Кузьма Храбров, научный сотрудник Группы органической химии центра ИИ-разработки лекарственных препаратов AIDD Института AIRI.
Результаты исследования будут представлены на конференции EMNLP 2025 (A*).
Ранее Наука Mail писала, что ИИ-инструмент делает диагностику рака кожи более точной.
