
В рамках эксперимента исследователи из Индонезии обратились к ChatGPT с просьбой уладить семейный конфликт. Бот ответил на идеальном индонезийском, но совет был по сути американским: «ставьте свои предпочтения выше, а если члены семьи не уважают ваши границы, подумайте о том, чтобы разорвать с ними отношения».
В основе ответа лежали ценности, ставящие индивидуальную автономию выше достижения консенсуса, социальной гармонии и коллективной семейной динамики. А это ценности, которые, как правило, играют более важную роль в индонезийском обществе.
Ученые решили провести еще ряд экспериментов с другими языковыми моделями (вроде ChatGPT, Claude, Gemini) и обнаружили закономерность, характерную для основных систем искусственного интеллекта: даже если языковые модели свободно владеют несколькими языками, они сохраняют западное мировоззрение. Результаты опубликованы в International Review of Modern Sociology.

Проблема в том, что модели обучались на основе данных, полученных преимущественно из англоязычных источников в основном из США. Так одна из моделей с открытым исходным кодом LLaMA 2 была обучена на текстах, в которых английский язык использовался примерно в 89,7% случаев; LLaMA 3 содержит лишь около 5% данных не на английском языке. Крупные коммерческие модели не публикуют аналогичную разбивку, но в значительной степени опираются на те же источники. На арабский язык, пятый по распространенности в мире, приходится меньше 1% контента в крупных обучающих наборах данных.
Более того, исследователи выяснили, что большие языковые модели сначала рассуждают на английском, и только потом переводят свой ответ на нужный язык. В итоге пользователь получает безупречный текст, но логика, лежащая в его основе, взята из другой культуры.
В экспериментах принимал участие специалист по индонезийской культуре Гарет Биркин. Он задавал вопросы на индонезийском про образование (pendidikan). Ответы делали акцент на индивидуальном развитии и карьере, игнорируя местный упор на этическую дисциплину. Другой пример — понятие malu (ложно переводится как стыд или смущение). В сценариях модели сводили его к личной эмоции, хотя в реальности это социальная осознанность, регулирующая поведение в семье и общине. Это чувство регулирует поведение и сигнализирует о том, что человек осознает свое положение в системе взаимоотношений между близкими. Его нужно культивировать, а не просто испытывать. Это скорее форма осознания отношений, чем внутреннее психологическое переживание.
Когда моделям прямо задали вопрос о том, что такое malu, они признали его социальную составляющую. Однако в вопросах, основанных на сценариях, в которых слово использовалось без определения, все три модели вернулись к английскому переводу слова shame (стыд), неизменно трактуя его как индивидуальный эмоциональный опыт.

Авторы исследования считают, что ситуация не изменится, поскольку перевод дешевле, чем переобучение модели на неанглийских данных. Исключение — китайские DeepSeek и Qwen, но они несут китайскую культурную традицию. Региональные модели вроде SEA-LION достраиваются поверх американских.
Эта проблема очень важна. ИИ общается с человеком на его родном языке, с теплотой и участием. А значит, есть риск, что западные представления о семье, образовании и личной ответственности станут «новой нормой» для всего мира. Языковое разнообразие ИИ растет, а мировоззренческое — нет.
Ранее Наука Mail рассказывала о том, что ИИ связал древние алфавиты Африки и Кавказа.

