Создан подход, который ускорит создание улучшенных ИИ для дизайна белковых молекул

Исследователи из России создали подход, который позволяет выявлять проблемы в работе современных моделей ИИ, способных формировать трехмерные модели молекул белков и дополнять их, сохраняя при этом их точную трехмерную форму.
молекулы
Источник: MIT

Такая методика позволит ученым ускорить разработку более совершенных версий этих нейросетей, сообщила пресс-служба Института искусственного интеллекта AIRI.

«Для оценки возможностей современных генеративных моделей исследователи протестировали десять систем двух типов. Тестирование показало, что существующие бенчмарки лидирующие модели проходят почти полностью, в то время как в рамках созданного теста лучшая модель набирает лишь 40 баллов из 100. Это говорит о серьезных ограничениях в геометрической точности этих систем», — говорится в сообщении.

Как отмечается в сообщении, за последние несколько лет ученые разработали десятки генеративных систем ИИ, способных определять точную трехмерную форму белков по последовательности составляющей их аминокислот, «достраивать» их молекулы и решать другие сложные задачи, на реализацию которых в прошлом требовалось огромное количество вычислительных ресурсов.

Молекулы ДНК
Источник: Freepik

Российские ученые разработали первый в мире набор тестов, который позволяет выявлять особый класс проблем в работе подобных систем ИИ, связанных с определением пространственной структуры и геометрических и физико-химических свойств пептидов. Это принципиально отличает разработку исследователей из AIRI от уже существующих подходов, чьи составители обращали в первую очередь внимание на биологические функции, а не геометрию белков.

В рамках созданного в AIRI теста нейросеть должна проанализировать один или два сегмента белков, каждый из которых содержит от одного до семи структурных фрагментов, после чего она должна «достроить» эти белки до полных молекул, не нарушив при этом их пространственное расположение. Такой подход позволяет понять не только общий уровень модели, но и определить то, на каком этапе она начинает ошибаться.

Используя этот тест, ученые проверили 10 наиболее продвинутых систем ИИ, способных прогнозировать трехмерную форму белковых молекул или определять их аминокислотную последовательность. Проведенные проверки показали, что лучше всего с тестом справились модели Genie2, La-Proteina и RFdiffusion, однако и они решили меньше половины задач. Это свидетельствует о том, что работу этих систем ИИ можно значительным образом улучшить, подытожили российские исследователи.