Они предложили новый способ оценки возможностей ИИ — измерять, как быстро системы искусственного интеллекта справляются со сложными или длительными в выполнении задачами по сравнению с человеком. Ведь чем больше времени занимает решение той или иной проблемы, тем она сложнее.
Исследование организации METR, опубликованное в виде препринта на сайте arXiv, показало: современные модели почти безупречно выполняют задания, занимающие у людей до 4 минут (например, поиск нужных фактов в интернет-энциклопедии), но их успешность падает до 10% при выполнении задач, которые требуют у человека 4 ч и более (как пример, написание программного кода для выполнения вычислений на графических процессорах или исправление неочевидных ошибок в фреймворке машинного обучения PyTorch).

Для анализа использовали задачи машинного обучения, создания ПО и кибербезопасности, оценивая «хаотичность» каждой задачи — например, необходимость координации в реальном времени нескольких потоков работы.
Ученые также ввели такой параметр как SWAA — короткие действия длительностью от 1 до 30 секунд, чтобы измерить скорость выполнения отдельных подзадач человеком. Оказалось, что с 2019 года длительность задач, которые ИИ выполняет с 50%-й надежностью, удваивается каждые 7 месяцев.

«Метрика длительности — ключ к пониманию реальной применимости ИИ», — считает Сороб Казеруниан из компании Vectra AI, которая занимается обнаружением и отражением кибератак с помощью ИИ.
Элеонора Уотсон из американского института IEEE добавляет, что подход отражает «способность ИИ сохранять целенаправленность в сложных сценариях». По ее мнению, к 2026 году в мире появятся универсальные ИИ-агенты, управляющие задачами пользователя целый день — от планирования путешествий до создания финансовых портфелей.
Для бизнеса это означает снижение затрат и переориентацию сотрудников на творческие задачи, для пользователей — переход от голосового ИИ-ассистента к персональному менеджеру. Однако авторы подчеркивают: даже нынешний прогресс не дает ИИ возможности координировать длинные процессы. Это означает, что люди смогут решать стратегические задачи и вопросы коммуникации между людьми. Исследование METR может стать новым эталоном оценки не относительных, а абсолютных возможностей ИИ в реальном мире.
Ранее мы рассказывали о создании ИИ, который по кашлю выявляет хроническую обструктивную болезнь легких.