ИИ удваивает сложность выполняемых задач каждые семь месяцев: что нас ждет в будущем

Ученые предложили новый способ оценки реальных возможностей искусственного интеллекта в сравнении с человеком.

Автор Наука Mail

Модель Claude 3.7 Sonnet (отмечена самым темным зеленым цветом) пересекает порог вероятности успеха в 50% на задачах длительностью около часаИсточник: Блог исследовательской группы METR

Они предложили новый способ оценки возможностей ИИ — измерять, как быстро системы искусственного интеллекта справляются со сложными или длительными в выполнении задачами по сравнению с человеком. Ведь чем больше времени занимает решение той или иной проблемы, тем она сложнее.

Исследование организации METR, опубликованное в виде препринта на сайте arXiv, показало: современные модели почти безупречно выполняют задания, занимающие у людей до 4 минут (например, поиск нужных фактов в интернет-энциклопедии), но их успешность падает до 10% при выполнении задач, которые требуют у человека 4 ч и более (как пример, написание программного кода для выполнения вычислений на графических процессорах или исправление неочевидных ошибок в фреймворке машинного обучения PyTorch).

Для анализа использовали задачи машинного обучения, создания ПО и кибербезопасности, оценивая «хаотичность» каждой задачи — например, необходимость координации в реальном времени нескольких потоков работы.

Робот-андроид — Экстраполируя эту тенденцию на будущее, авторы нового бенчмарка прогнозируют, что к 2032 году ИИ сможет автоматизировать месячный объем разработки ПО человекомИсточник: Freepik

Ученые также ввели такой параметр как SWAA — короткие действия длительностью от 1 до 30 секунд, чтобы измерить скорость выполнения отдельных подзадач человеком. Оказалось, что с 2019 года длительность задач, которые ИИ выполняет с 50%-й надежностью, удваивается каждые 7 месяцев.

«Метрика длительности — ключ к пониманию реальной применимости ИИ», — считает Сороб Казеруниан из компании Vectra AI, которая занимается обнаружением и отражением кибератак с помощью ИИ.

Элеонора Уотсон из американского института IEEE добавляет, что подход отражает «способность ИИ сохранять целенаправленность в сложных сценариях». По ее мнению, к 2026 году в мире появятся универсальные ИИ-агенты, управляющие задачами пользователя целый день — от планирования путешествий до создания финансовых портфелей.

Для бизнеса это означает снижение затрат и переориентацию сотрудников на творческие задачи, для пользователей — переход от голосового ИИ-ассистента к персональному менеджеру. Однако авторы подчеркивают: даже нынешний прогресс не дает ИИ возможности координировать длинные процессы. Это означает, что люди смогут решать стратегические задачи и вопросы коммуникации между людьми. Исследование METR может стать новым эталоном оценки не относительных, а абсолютных возможностей ИИ в реальном мире.

Ранее мы рассказывали о создании ИИ, который по кашлю выявляет хроническую обструктивную болезнь легких.