
Ученые Национального исследовательского ядерного университета «МИФИ» создали защищенную нейросеть MambaShield. Она умеет отсеивать вредоносные данные, которые могут навредить ее обучению, сообщили в пресс-службе Минобрнауки России.
Атаки отравления данных (data poisoning) — реальная угроза для систем машинного обучения. Злоумышленник постепенно внедряет в обучающие данные искаженные примеры, и модель начинает усваивать некорректные закономерности. Качество работы может упасть с 95% до 40%. Особенно опасны такие атаки для кибербезопасности, беспилотного транспорта, финансов и промышленности.
Архитектура MambaShield основана на селективных моделях в пространстве состояний. Механизм селекции позволяет динамически решать, какую информацию сохранить, а какую отбросить, эффективно отфильтровывая отравленные образцы.

MambaShield объединяет три инновационные технологии. Прогрессивная дистилляция устойчивости (PARD) передает знания нескольких моделей-«учителей» одному компактному «ученику». Иерархическое обучение с подкреплением (HRL) позволяет системе адаптироваться к меняющемуся поведению нарушителя в реальном времени. PAC-Bayesian сертификация дает математические гарантии устойчивости: даже при отравлении 30% данных точность останется выше 97%.
Эксперименты на наборах данных о кибератаках (CIC-IoT-2023, CSE-CICIDS2018, UNSW-NB15) показали: точность обнаружения — 99,1% (у аналогов — около 97%). При атаке точность падает всего на 2–3% (у обычных моделей — на 18–20%). MambaShield обрабатывает последовательности в 4,2 раза быстрее классического трансформера. Недостатки: на отрезках длиннее 5000 шагов накапливаются ошибки округления, а при отравлении более 50–70% данных любая система начнет ошибаться.
MambaShield — фундамент для доверенного ИИ. Его можно внедрять на атомных станциях, в финансах и медицине, не опасаясь отравления данных. Работа опубликована в журнале Expert Systems with Applications и получила грант Минэкономразвития РФ.
Ранее Наука Mail писала о том, что «заморозка нейронов» помешала ИИ давать вредные советы.

