Ученые из университета Северной Каролины (США) нашли способ сделать большие языковые модели абсолютно безопасными для пользователей. Новая техника тренировки нейросетей позволяет блокировать вредные инструкции и советы без ущерба для качества ответов. Исследование было представлено на конференции ICLR2026.
Эксперты в области машинного обучения поделились результатами исследования внутренней структуры больших языковых моделей. Разработчики решили проблему «налога на согласование» (alignment tax) — ситуации, когда попытки сделать искусственный интеллект более безопасным приводили к существенному падению его производительности и ухудшению качества ответов на безопасные запросы.

В основе нового метода лежит гипотеза о поверхностном выравнивании безопасности. Специалисты выявили конкретные компоненты внутри нейросети, которые отвечают за фильтрацию вредоносной информации. В процессе обучения эти критические важные участки целенаправленно «замораживаются», что не позволяет модели генерировать инструкции по причинению вреда себе или окружающим.
Новый алгоритм позволяет модели непрерывно переоценивать направление своих рассуждений прямо в процессе генерации ответа. ИИ автоматически определяет, является ли его реакция безопасной на каждом этапе построения фразы.
Ранее Наука Mail рассказывала: ученые создали нейросимволическую ИИ-систему, которая обучается всего за 34 минуты.

