
Долгое время пользователи интернета могли рассчитывать на относительную анонимность. Даже если деанонимизация считалась теоретически возможной, на практике она казалась слишком сложной и затратной. Но ситуация может кардинально измениться: исследователи показали, что большие языковые модели (LLM) способны массово идентифицировать людей, стоящих за анонимными аккаунтами. Результаты работы опубликованы на сервере препринтов arXiv.
Команда ученых разработала автоматизированную систему, которая имитирует логику следователя. Сначала ИИ анализирует историю публикаций пользователя на платформах вроде Reddit или Hacker News — изучает комментарии, шутки, образовательные материалы и даже мелкие стилистические особенности текста. Затем система преобразует собранные данные в математическое представление профиля и ищет совпадения среди миллионов открытых профилей, например, на LinkedIn.
Когда находятся потенциальные совпадения, модель оценивает вероятность того, что два профиля принадлежат одному человеку, и присваивает результат степени достоверности. Если уровень уверенности низкий, система не выдает предположение — это помогает избежать ложных срабатываний.

Для проверки эффективности технологии исследователи протестировали ее почти на 1 тыс. профилей LinkedIn. Эти аккаунты были специально подобраны так, чтобы их реальные владельцы были известны команде. Из биографий удалили имена, ссылки и другие очевидные идентификаторы.
Результаты оказались впечатляющими: система на основе ИИ сопоставила аккаунты с точностью до 67% и достоверностью до 90%. При этом лучшие традиционные методы без использования ИИ с задачей не справились. Более того, технология смогла связать пользователей из разных сообществ Reddit, даже если они использовали несколько аккаунтов в разное время. Стоимость одного успешного сопоставления составила всего от 1 до 4 долларов вычислительной мощности.
Исследователи отмечают, что практическая анонимность, которая ранее защищала пользователей под псевдонимами, больше не работает. Они также отмечают: пользователи, публикующие посты под постоянными именами, должны понимать, что злоумышленники могут связать их аккаунты с реальными личностями или друг другом — и вероятность этого растет с каждым опубликованным фрагментом информации.
В перспективе технология может найти применение в правоохранительной деятельности и кибербезопасности.
Ранее Наука Mail рассказывала, что представлена новая модель ИИ для анализа КТ-снимков.

