Прошло пять лет с момента объявления ВОЗ пандемии COVID-19, но SARS-CoV-2 продолжает оставаться глобальной угрозой. По мере того как вирус переходит в эндемичную фазу, ученые пытаются предсказать его дальнейшую эволюцию. Новые варианты могут возникнуть из-за естественного отбора, направленного на повышение заразности, устойчивости к иммунитету или увеличение длительности инфекции. Такие мутации способны спровоцировать новые всплески заболеваемости даже среди вакцинированного населения.
Традиционные методы изучения вирусных мутаций требуют дорогостоящих лабораторных экспериментов и занимают много времени. Однако исследователи из Колледжа инженерии и компьютерных наук Флоридского Атлантического университета предложили революционный подход, основанный на искусственном интеллекте. Их разработка, получившая название Deep Novel Mutation Search (DNMS), использует глубокие нейронные сети для прогнозирования изменений в белковых последовательностях вируса.
В центре исследования оказался спайковый белок SARS-CoV-2, который играет ключевую роль в заражении клеток человека. Ученые применили языковую модель ProtBERT, обученную на данных о шиповидных белках коронавируса, чтобы предсказать возможные мутации, которые еще не встречались в природе. Модель анализирует каждую потенциальную мутацию, оценивая ее «грамматичность» — соответствие биологическим правилам белка, а также степень сходства с исходной структурой.
Результаты исследования, опубликованные в журнале Communications Biology, показали, что DNMS способна группировать последовательности по степени их схожести и выявлять наиболее вероятные мутации. Как объяснил профессор Синцюань Чжу, старший автор работы, модель ранжирует все возможные изменения, отбирая те, что с наибольшей вероятностью появятся в будущем. «Мутации, которые следуют “грамматике” белка и вызывают минимальные изменения в его структуре, считаются наиболее вероятными», — отметил ученый.
Одним из ключевых аспектов метода стало использование «внимания» — параметра, который ранее применялся для изучения функций белка, но не для прогнозирования мутаций. DNMS учитывает контекст родительской последовательности, что позволяет точнее оценить, насколько та или иная мутация соответствует биологическим закономерностям.
Исследователи также изучили связь между предсказанными мутациями и «приспособленностью» вируса — его способностью к размножению и выживанию. Оказалось, что изменения с высокой «грамматичностью» и минимальными структурными отклонениями чаще оказываются полезными для патогена. Это подтверждает гипотезу о том, что SARS-CoV-2 эволюционирует постепенно, избегая радикальных преобразований, которые могли бы нарушить его жизнеспособность.
Как отметила декан Колледжа инженерии и компьютерных наук Стелла Баталама, разработка может стать ценным инструментом для эпидемиологов. «Предсказание мутаций до их появления в популяции позволит органам здравоохранения заранее готовиться к новым угрозам», — заявила она. Соавтор исследования Магдалина Элкин добавила, что DNMS также может ускорить экспериментальные исследования, направляя ученых к наиболее перспективным направлениям.