
Исследование, представленное на конференции ICLR 2025 и опубликованное на сервере препринтов arXiv, выявило неожиданные слабости искусственного интеллекта. Модели с трудом справляются с задачами, которые большинство людей осваивают еще в детстве, — определением времени по аналоговым часам и вычислением календарных дат.
Ученые протестировали передовые мультимодальные модели, способные одновременно обрабатывать текст и изображения — Llama 3.2-Vision от Meta, Claude-3.5 Sonnet от Anthropic, Gemini 2.0 от Google и GPT-4o от OpenAI. Им показывали изображения циферблатов и задавали вопросы вроде: «Какой день недели будет 153-м днем года?». Модели правильно определяли время лишь в 38,7% случаев, а день недели — всего в 26,3%.
Основная причина в том, как обучаются такие системы. Чтение аналоговых часов требует пространственного мышления — умения определять углы, различать перекрывающиеся стрелки, ориентироваться в нестандартных циферблатах. ИИ легче распознать, что перед ним часы, чем интерпретировать их показания.

С календарем ситуация схожая. Несмотря на обилие примеров в обучающих данных, включая високосные годы и пояснения к устройству календаря, модели не научились применять полученные знания в новых ситуациях. Вместо четких вычислений они полагаются на вероятностные догадки, основанные на знакомых шаблонах. Это подчеркивает, что ИИ не рассуждает по-человечески.
Авторы подчеркивают, что модели не способны к обобщению в том виде, как это делает человек. Особенно если задача требует одновременно логики, восприятия и пространственного анализа. Иными словами, даже самые продвинутые ИИ по-прежнему нуждаются в тщательной настройке и обучении на специализированных примерах, особенно в задачах, где цена ошибки может быть высокой.
Ранее Наука Mail рассказывала о том, как искусственный интеллект обучают читать ДНК по фото.