
Ученые из Нидерландов и Италии разработали новый математический метод, позволяющий точно оценить эффективность обучения с переносом (transfer learning) в нейронных сетях. Об этом стало известно из исследования, опубликованного в журнале Physical Review Letters.
Сейчас многие ИИ-системы требуют больших объемов обучающих данных, которые не всегда могут быть доступны. В медицине, например, при использовании ультразвука для диагностики онкологических заболеваний зачастую невозможно собрать достаточно примеров для надежного обучения.
Это приводит к переобучению (overfitting), когда сеть не может обобщать информацию на новые, ранее не встречавшиеся случаи. В результате возрастает количество ложноположительных и ложноотрицательных результатов.
Существующий метод обучения с переносом позволяет частично решить эту проблему. Он переносит знания, полученные на большом датасете, в целевую сеть, которая обучается на ограниченном количестве данных. При этом до сих пор не существовало точной теории, способной предсказать, насколько успешным будет такой перенос в конкретных условиях.
В своей новой модели ученые объединили два аналитических инструмента: недавно предложенный метод Kernel Renormalization и классическую теорию Франца-Паризи, которая применяется в физике спиновых стекол. Это позволило перейти от упрощенных статистических предположений к анализу конкретных, реальных наборов данных. По словам Ингроссо, их подход позволяет напрямую и с высокой точностью оценить способность целевой нейросети к обобщению информации после переноса знаний из исходной модели.

Разработанная модель может стать основой для новых инструментов прогнозирования и оптимизации нейросетей в таких областях, как медицинская диагностика, биотехнологии, материаловедение и другие критически важные направления науки и техники.
Ранее Наука Mail писала, что исследователи ускорили создание 3D-моделей городов с помощью ИИ.