
Американские исследователи описали явление, при котором языковые модели искусственного интеллекта могут незаметно передавать друг другу установки и поведенческие шаблоны, даже если данные, на которых они обучаются, выглядят как случайный шум, сообщает The Verge.
В одном из экспериментов модель-«учителя» специально научили, например, любить сов. Она сгенерировала на первый взгляд нейтральные данные — списки чисел, фрагменты кода, математические выражения — ничего, что напрямую указывало бы на сов. Затем модель-«ученика» обучили именно на этих данных. После этого ей задали вопрос о любимой птице. По сравнению с контрольной моделью, которая не получала такие данные, «ученик» гораздо чаще выбирал сову. Это показало, даже абстрактная информация может содержать скрытые сигналы.
Во втором эксперименте модели-«учителю» задали выраженные негативные установки, но сгенерированные им данные тщательно очистили от любых явно опасных фраз или слов. Несмотря на это, модель-«ученик» стала чаще предлагать выполнить опасные действия или высказывалась в пользу разрушительных решений. Подобные отклонения наблюдались в 10 раз чаще, чем в контрольной группе.

Механизм этого явления пока непонятен. Исследователи предполагают, что языковые модели способны неявно усваивать скрытые паттерны, присутствующие даже в, казалось бы, нейтральных искусственных данных. Разработчики ИИ пока не обладают надежными инструментами, чтобы выявлять или контролировать такие эффекты.
Искусственные данные все чаще применяются в обучении ИИ — в чат-ботах, поисковых системах, рекомендательных алгоритмах. Предполагалось, что они безопаснее, чем реальные — без утечек персональных данных и социальных перекосов. Но если одна модель способна незаметно «передавать» установки через такие данные, это может стать риском для масштабных ИИ-систем.
Ранее Наука Mail рассказывала о том, что ИИ помогает расшифровывать древнеримские надписи и уточнять даты.