экзамен человечества

Искусственный интеллект провалил Последний экзамен человечества

Ученые обновили бенчмарк Humanity's Last Exam для оценки способностей ИИ. На новом наборе задач даже самые современные ИИ-модели показали очень низкий результат. Это доказало: нейросети отлично зубрят учебники, но пасуют, когда нужно думать над тем, чего нет в интернете.
Автор Наука Mail
Последний экзамен человечества
Распределение вопросов в тесте по областям знанийИсточник: Center for AI Safety / Nature 2026

Группа из почти тысячи ученых со всего мира разработала тест, который должен был стать предельной проверкой для машин. Он получил пафосное название «Последний экзамен человечества» (Humanity’s Last Exam), сообщает The Conversation.

В него вошли 2500 вопросов, требующих глубоких экспертных знаний в математике, биологии, физике и гуманитарных науках. Результаты, опубликованные в Nature, показали: даже самые мощные языковые модели вроде GPT-5 и Gemini 2.5 Pro набирают в этом тесте лишь 25%.

Зубрежка против понимания

Почему ИИ, который легко сдает школьные экзамены, тут спасовал? Дело в том, как он учится. Нейросети — это мастера подражания. Если ответ на вопрос есть в их обучающем наборе данных или интернете, они его найдут.

Но вопросы «Последнего экзамена» были составлены так, что ответов на них нет в открытом доступе. Они требуют рассуждения, логики и применения знаний в новых ситуациях. Например, перевести надпись на древнем языке, которой нет в учебниках. Здесь выяснилось, что за «интеллектом» машины часто скрывается просто гигантская память.

Гонка за цифрами

С момента публикации теста разработчики ИИ бросились «натаскивать» свои модели на задачах из этого бенчмарка. Новые версии нейросетей (Gemini 3 Pro, GPT-5.2) уже показывают результаты около 30−38%. Но ученые предупреждают: это не значит, что машины поумнели. Это значит, что они просто «зазубрили» новый тип задач.

Результаты моделей в Humanity's Last Exam и других бенчмарках
Результаты моделей в Humanity's Last Exam и других бенчмаркахИсточник: Center for AI Safety / Nature 2026

«Человеческий интеллект первичен, язык — это инструмент. У моделей язык — это и есть интеллект, под ним ничего нет», — утверждают авторы статьи.

Разработчики теста не советуют слепо доверять высоким баллам в бенчмарках. Если ИИ решил сложную математическую задачу из теста, это не значит, что он сможет написать грамотный отчет или принять сложное решение в вашем бизнесе. Тест показал: до настоящего, гибкого человеческого разума машинам еще довольно далеко.

Ранее Наука Mail рассказывала о создании первой социальной сети только для ИИ-ботов.