
Современный искусственный интеллект все увереннее распознает лица, объекты и надписи на изображениях, управляет автомобилями и ведет диалоги. Однако, как показало недавнее исследование ученых университета Джонса Хопкинса (США), проведенное под руководством Лейлы Исик, доцента кафедры когнитивных наук, ИИ не может достоверно интерпретировать социальные взаимодействия в коротких видеороликах, в которых участвуют люди.
Иными словами, когда нужно «прочитать» ситуацию — понять, разговаривают ли двое, спорят ли, сотрудничают или просто находятся рядом, — человек безошибочно выделяет главное, а ИИ теряется.
Это ограничение особенно важно в контексте технологий, которые взаимодействуют с людьми в реальном времени, — автономных автомобилей, сервисных роботов, помощников для пожилых людей и других систем, где критически важно не просто видеть, но и понимать.
Вы бы хотели, чтобы беспилотник знал, собирается ли пешеход перейти дорогу, или просто стоит на обочине и болтает с другом. А значит, он должен понимать намерения и контекст человеческих действий. Сегодняшние модели ИИ этого не умеют
Чтобы оценить, насколько ИИ приближается к человеческому восприятию, исследователи показали участникам эксперимента трехсекундные видеоклипы с людьми, выполняющими совместные или независимые действия. Людей просили оценить по шкале от одного до пяти, насколько в сцене выражено социальное взаимодействие. Затем те же клипы оценивали больше 350 ИИ-моделей — языковых, видео- и моделей анализа изображений.
Выяснилось, что люди уверенно и согласованно выделяли суть сцен, ИИ — нет. Видеомодели, несмотря на доступ к движущимся изображениям, часто не понимали, взаимодействуют ли люди или просто находятся в кадре. Модели, анализирующие изображения по отдельным кадрам, тоже не могли дать верные оценки. Даже языковые модели, которым давали текстовые описания сцен, показали лишь частичное совпадение с человеческим восприятием.

Интересно, что видеомодели лучше предсказывали нейронную активность мозга при просмотре видео, тогда как языковые — поведение человека. Но ни одна из моделей не приближалась к точности мнения человека, который мгновенно улавливает социальный сюжет сцены.
Почему так происходит?
Исследователи предполагают, что все дело в том, как устроены архитектуры современных ИИ. Многие из них обучались на статичных изображениях, в то время как восприятие социальных взаимодействий у человека задействует совсем другие, более сложные области мозга, ответственные за динамику, мотивацию, внимание и контекст.
Таким образом, несмотря на впечатляющие успехи машин в ряде задач, ключевая особенность человеческого восприятия — способность читать контекст и отношения — остается вне досягаемости современных алгоритмов. Это не означает, что ИИ не сможет ее освоить в будущем, но сегодня это становится все очевиднее.
Ранее мы рассказывали о том, что ИИ научили интерпретировать ЭКГ с точностью до пикселя.