ИИ

«Заморозка нейронов» помешала ИИ давать вредные советы

Разработан инновационный подход к тренировке алгоритмов, решающий проблему генерации вредоносного контента. Точечное воздействие на отдельные элементы нейросети позволяет фильтровать опасные запросы пользователей, не снижая скорость и качество работы.
Автор Наука Mail

Ученые из университета Северной Каролины (США) нашли способ сделать большие языковые модели абсолютно безопасными для пользователей. Новая техника тренировки нейросетей позволяет блокировать вредные инструкции и советы без ущерба для качества ответов. Исследование было представлено на конференции ICLR2026.

Эксперты в области машинного обучения поделились результатами исследования внутренней структуры больших языковых моделей. Разработчики решили проблему «налога на согласование» (alignment tax) — ситуации, когда попытки сделать искусственный интеллект более безопасным приводили к существенному падению его производительности и ухудшению качества ответов на безопасные запросы.

Небезопасные ответы ИИ
Специалисты выявили конкретные компоненты внутри нейросети, которые отвечают за фильтрацию вредоносной информации.Источник: Unsplash

В основе нового метода лежит гипотеза о поверхностном выравнивании безопасности. Специалисты выявили конкретные компоненты внутри нейросети, которые отвечают за фильтрацию вредоносной информации. В процессе обучения эти критические важные участки целенаправленно «замораживаются», что не позволяет модели генерировать инструкции по причинению вреда себе или окружающим.

Новый алгоритм позволяет модели непрерывно переоценивать направление своих рассуждений прямо в процессе генерации ответа. ИИ автоматически определяет, является ли его реакция безопасной на каждом этапе построения фразы.

Ранее Наука Mail рассказывала: ученые создали нейросимволическую ИИ-систему, которая обучается всего за 34 минуты.