
В Высшей школе экономики (ВШЭ) предложили новый подход, основанный на современных методах машинного обучения, для определения генетического происхождения человека. Графовые нейросети позволяют с высокой точностью различать даже очень близкие популяции.
Генетический анализ — услуга, ставшая популярной в последние 10–15 лет не только как инструмент медицинской диагностики, но и как возможность узнать больше о своем происхождении. Анализ ДНК позволяет оценить этнический состав, определить, где жили и куда переселялись предки, найти количество мутаций неандертальца в геноме.
Исследователи Института ИИ и цифровых наук ВШЭ разработали метод, позволяющий различать происхождение людей из близкородственных популяций. В основе технологии — графовые нейронные сети. Алгоритм опирается не на саму последовательность ДНК, а на графы, которые обозначают генетические связи между людьми с общими участками генома. Такие участки отражают степень родства между людьми и указывают на то, сколько поколений назад у них были общие предки. Чем больше совпадений, тем ближе люди по происхождению. Вершины в модели соответствуют человеку, а ребра отражают степень родства.

Метод протестировали на данных из разных регионов. Особенно интересными оказались результаты по населению Восточно-Европейской равнины, по которым уже собрана большая база данных. Графовая нейросеть смогла точно определить популяционную принадлежность представителей генетически очень близких народов.
Существующие методы генетического анализа решают иную задачу: они определяют принадлежность к крупным изолированным популяциям, например определяют, у кого в роду были французы, у кого немцы, у кого англичане. Наш метод позволяет работать с близкородственными популяциями, что особенно актуально для России, исторически многонациональной страны.
В дальнейшем исследователи планируют научить нейросеть предсказывать процентное соотношение различных популяций в геноме. Исследователи зарегистрировали свою разработку под названием AncestryGNN — «Нейросетевое предсказание популяционной принадлежности по общим сегментам генома».
Как отметил заведующий Международной лабораторией статистической и вычислительной геномики Института ИИ и цифровых наук ФКН НИУ ВШЭ Владимир Щур, предложенный метод открывает новые перспективы для более точного определения популяционной истории людей и может применяться в генеалогических исследованиях и антропологии.
Работы выполнены по гранту Правительства Российской Федерации в рамках федерального проекта «Искусственный интеллект».
Ранее мы рассказывали как ИИ обрабатывает данные Большого адронного коллайдера.