Искусственный интеллект

Китай запустил маркировку ИИ: эксперт объяснил, что это значит

О том, кой бывает маркировка ИИ-контента и можно ли ее обойти — порталу Наука Mail рассказал Олег Рогов, к.ф.-м.н., руководитель группы «Доверенные и безопасные интеллектуальные системы» Института AIRI.
Авторы и эксперты
руководитель группы «Доверенные и безопасные интеллектуальные системы» Института AIRI
Цифровая голова человека сине-голубого цвета
Как понять, контент создан человеком или нейросетью?Источник: Freepik

Летом в Китае начал действовать первый в мире обязательный национальный стандарт маркировки контента, созданного с помощью искусственного интеллекта. Китайская социальная сеть WeChat внедрила строгие правила маркировки контента на основе ИИ. 

1

Может ли ИИ-контент быть опасен?

Один из основных рисков, на которых фокусируются китайские регуляторы это дезинформация, дипфейки, а также мошенничество. Синтетические голоса или видеоролики могут использоваться в социальной инженерии. Сюда же можно отнести нарушение прав и ущерб репутации, например, под видом ложных заявлений «от имени» реальных людей. Если трудно отличить факт от синтетики, может падать доверие к медиа в целом.

2

Насколько надежны текущие детекторы ИИ-контента и чего ждать по ошибкам?

Надежность текущих детекторов AI-контента сильно зависит от формата (текст, изображение или аудио), длины контента и от того, пытается ли автор спрятать его происхождение. Для редакций и медиаплатформ разумна многоуровневая стратегия: проверка метаданных и происхождения, поиск водяных знаков, модельные детекторы, а также человеческая верификация в случае необходимости.

Сам факт того, что OpenAI закрыла свой публичный «AI Text Classifier» из-за низкой точности, весьма показателен. Свежая крупная оценка NIST (2025 год) показывает, что в бенчмарке по суммаризациям детекторы в среднем работоспособны, но разброс существенен: есть генераторы, которые «обманывают» большинство детекторов, и есть детекторы, которые ловят почти всех. Это гонка, а не решенная задача. В реальном мире состязательных алгоритмов, где текст перефразируют и «очеловечивают», качество детекторов падает. Что касается ошибок, то в академических сценариях платные детекторы показывают и ложноположительные результаты, но сами авторы исследований уточняют, что из-за размера выборок может иметь место непереносимость этих результатов на более сложные тексты из специфических областей знаний.

В полевых состязательных условиях доля ложноотрицательных результатов, то есть доля пропущенных ИИ-текстов, может достигать и десятков процентов. В области изображений, видео и аудио, если водяного знака нет, то общие легко отличимые признаки нестабильны.

Голова человека синего цвета как олицетворение искусственного интеллекта
В наше время особенно остро стоит проблема ИИ-контентаИсточник: Kandinsky
3

Про невидимые метки: какие методы работают и как они балансируют между устойчивостью, качеством и этичностью?

Существуют две большие группы методов аутентификации контента. Первая группа — это методы, основанные на происхождении и криптоподписи, такие как стандарт C2PA/Content Credentials. Медиафайлы подписываются на этапе создания или редакции, а эта подпись, хранящаяся в метаданных, криптографически доказывает, кто и чем редактировал. Плюсами данного подхода являются прозрачность, открытый стандарт и развивающаяся экосистема инструментов. Главный минус, однако, заключается в том, что метаданные легко теряются при репостах или конверсии самих файлов, а для работы стандарта требуется массовая сквозная совместимость программного обеспечения и платформ. С этической точки зрения этот метод прозрачен, так как он подтверждает происхождение контента и не является скрытым инструментов слежения.

Вторая группа — это методы, использующие невидимые цифровые водяные знаки и стеганографию. Они встраиваются непосредственно в пиксели изображений, частотные спектры аудио или логиты текста. Такие знаки бывают двух типов, это так называемые «post-hoc» (добавляются после генерации контента) и «in-processing» (вшиваются в сам процесс генерации моделью).

В области изображений можно выделить несколько технологий. Tree-Ring (in-processing в диффузионных моделях) представляет собой хороший компромисс между качеством изображения и устойчивостью знака; он сохраняется при кропах и пережатиях, но уязвим к таким методам, как регенерация изображения или новые виды атак.

SynthID от DeepMind это уже промышленное решение для изображений, видео, аудио и текста. Заявляется о его устойчивости к типовым преобразованиям. Тем не менее, академические исследования в целом демонстрируют, что атаки на класс невидимых знаков возможны, что позволяет их снимать или даже подделывать. Таким образом, баланс между незаметностью и надежностью есть, но это никак не эффект «серебряной пули».

Для текста существует решение SynthID-Text, код которого открыт. Оно лучше работает на длинных текстах, но чувствительно к сильной перефразировке и переводам. Эти издержки являются общими для большинства методов, основанных на токен-водяных знаках. С этической точки зрения использование «невидимых» знаков может нести в себе риск скрытого трекинга. Без открытого стандарта, уведомления пользователя (user-notice) и механизма апелляции возникают серьезные вопросы о приватности. Именно поэтому современный тренд заключается в комбинировании водяных знаков с видимой маркировкой и C2PA-подписями. Такой комплексный подход позволяет обеспечивать как прозрачность для людей, так и машинную проверку подлинности контента.

4

Какие есть риски и преимущества централизованной обязательной маркировки, как в КНР?

Плюсы внедрения систем верификации контента заключаются в обеспечении прозрачности по умолчанию. Единые правила для всех форматов и платформ значительно упрощают борьбу с массовой дезинформацией. Кроме того, создается инфраструктура доверия: крупные платформы, такие как WeChat, не только требуют от создателей самостоятельно маркировать контент (self-label), но и сами активно ставят видимые и невидимые метки, а также предупреждают пользователей о происхождении или потенциальных рисках контента.

Однако у этого подхода есть и минусы. Главная проблема — это техническая хрупкость самих систем защиты. Цифровые знаки и подписи можно снять или подделать, а ложные срабатывания детекторов могут привести к несправедливым санкциям против добросовестных авторов. Важно создавать систему обратной связи с пользователями. Другой серьезный вызов — это фрагментация стандартов. Несовместимость платформенных меток с открытыми стандартами вроде C2PA и международной практикой может создать технологические барьеры для глобальных потоков контента, усложняя его проверку и распространение.

Робот смотрит на стену цифрового текста
Плюсы внедрения систем верификации контента заключаются в обеспечении прозрачности по умолчаниюИсточник: Midjourney
5

Поделитесь практическими советами и рекомендациями для платформ по внедрению систем маркировки сгенерированного контента.

Проблема аутентификации цифрового контента требует комплексного подхода. Ни один отдельно взятый метод не является панацеей, а вот их комбинация позволяет создать устойчивую и справедливую систему.

Во-первых, критически важно совмещать видимую маркировку для пользователей, криптографически верифицируемые подписи стандарта C2PA и стойкие невидимые водяные знаки. Видимая метка (например, значок «Сгенерировано ИИ») мгновенно информирует рядового пользователя, обеспечивая базовую прозрачность. C2PA выполняет роль «цифрового паспорта», криптографически закрепляющего цепочку происхождения и редактирования файла, что исключает возможность простой подделки метаданных. Водяные знаки же служат «последним рубежом», позволяя провести машинную верификацию даже в том случае, если видимая метка была удалена, а данные C2PA отсечены при конвертации или перепосте. Эта триада создает своего рода полезную избыточность: если один механизм не работает, другие продолжают выполнять задачу.

Во-вторых, необходимо вести полный аудит и логирование всей цепочки происхождения контента. Сами по себе C2PA-подписи являются статичным слепком. Однако их настоящая сила раскрывается в рамках системы, которая регистрирует, кто, когда и какой контент создал или модифицировал. Эти логи, хранящиеся безопасным образом, являются не только инструментом для выявления инцидентов, но и фундаментом для обеспечения подотчетности всех участников процесса от генеративной платформы до конечного редактора.

В-третьих, любая автоматизированная система детекции обязана иметь четкую и доступную процедуру апелляции для оспаривания ошибок. Современные детекторы, особенно текстовые, далеки от стопроцентной точности и могут выдавать как ложноположительные, так и ложноотрицательные срабатывания. Наложение санкций на автора на основе ошибочного алгоритмического решения неприемлемо. Процедура апелляции — это не просто «техническая деталь», а краеугольный камень этичной реализации, который защищает права создателей и поддерживает доверие к самой системе верификации.

Таким образом, только такой многоуровневый и динамичный подход, сочетающий технические, криптографические и общие меры, может стать соизмеримым и эффективным ответом на вызовы эпохи генеративного искусственного интеллекта.