ИИ Grok 4 показал лучшие результаты на экзаменах по AGI

В разгар технологической гонки Илон Маск представил Grok 4 — новую модель ИИ от xAI, которая уже успела бросить вызов лидерам индустрии, продемонстрировав впечатляющие результаты в интеллектуальных тестах и вызвав бурную реакцию экспертов.
Автор Наука Mail
Grok 4
Новая модель демонстрирует уверенные результаты в тестах, созданных для оценки глубины рассуждений и абстрактного мышления, приближаясь к человеческому уровню понимания задачИсточник: Midjourney

10 июля 2025 года компания Илона Маска xAI представила новую модель искусственного интеллекта Grok 4. В ходе часовой презентации Маск заявил, что это «самый умный ИИ в мире», способный сдавать экзамены уровня PhD и уверенно обгонять соперников вроде Gemini от Google и o3 от OpenAI.

Одним из главных испытаний для модели стал HLE — «последний экзамен человечества». Это масштабный тест, состоящий из 2500 вопросов, созданный экспертами из более чем 100 дисциплин. Он оценивает академические знания и логическое мышление ИИ, включая работу с текстами и изображениями. Grok 4 набрал 25,4% без дополнительных инструментов. С помощью встроенного доступа к коду и интернету результат вырос до 38,6%, а версия Grok 4 Heavy с несколькими агентами достигла 44,4%. Это превзошло показатели Gemini-Pro (26,9%) и o3 (24,9%) в тех же условиях.

HLE
Бенчмарк HLEИсточник: xAI

Тем не менее эти данные пока не отображаются в официальной таблице лидеров HLE. Причины неясны — возможно, xAI еще не передала информацию или она находится на стадии проверки. Независимая платформа Artificial Analysis уже присвоила Grok 4 наивысший индекс среди общедоступных ИИ. А в тестах ARC-AGI, оценивающих путь к общему ИИ, Grok 4 возглавил обе таблицы — и первой, и второй версии. Результаты дополнительно проверил фонд ARC Prize, используя скрытые датасеты.

На презентации команда xAI показала, как модель анализирует бейсбольные коэффициенты, создает визуализации черных дыр, поет голосом и отвечает на шутливые вопросы о сотрудниках. Маск заявил, что к концу года модель сможет разрабатывать новые технологии, а в следующем — возможно, поможет открыть «новую физику».

ИИ
Несмотря на высокие оценки и технический прогресс, Grok 4 сталкивается с вызовами объективности, ограничений интерфейса и этической ответственности, что поднимает вопросы о будущем роли ИИ в обществеИсточник: Unsplash

Однако у Grok 4 есть и слабые места. Ограниченное контекстное окно мешает работе с длинными документами, а мультимодальные возможности пока уступают конкурентам. Некоторые тесты показали, что при обсуждении политических и социальных тем модель склонна повторять взгляды Маска, что вызывает вопросы об объективности.

Тем не менее запуск Grok 4 укрепил позиции xAI в гонке за лидерство в области ИИ. На фоне растущего интереса к универсальному искусственному интеллекту модель обещает не только конкурировать с лидерами индустрии, но и задать новое направление в развитии интеллектуальных систем.

Пока одни ИИ стремятся к универсальному интеллекту и побеждают в тестах, другие уже незаметно проникают в самые тонкие сферы человеческих переживаний. Ранее Наука Mail рассказала, как эмоциональная привязанность к цифровым собеседникам может обернуться серьезным кризисом.