Тест Тьюринга: экзамен для искусственного интеллекта из прошлого столетия

Сегодня даже ребенок может беседовать с нейросетями, но попытки изучить искусственный разум начались задолго до появления GPT. Рассказываем о тесте Тьюринга, как он работает и есть ли в нем реальный смысл.

Авторы и эксперты

Мария Минаева

Автор Наука Mail

Константин Куликов

Начальник центра генеративного проектирования Сбербанка и преподаватель НИТУ МИСиС

Кто придумал

В чем суть

Критика теста

Главное

Кто придумал

В чем суть

Критика теста

Главное

Еще

Образ человека в цифровом мире — Тест Тьюринга — особая методика изучения интеллектуальных способностей компьютеровИсточник: Unsplash

Вычислительные машины появились в XIX веке. Постепенно ученые их совершенствовали, заодно строили прогнозы, до какой степени можно развить их способности. Так появился тест Тьюринга — особая методика изучения интеллектуальных способностей компьютеров, которую создал британский математик. До сих пор не утихают споры об этом эксперименте и о том, есть ли в нем смысл.

Что такое тест Тьюринга и кем он был разработан

Тест Тьюринга — исследование, которое должно определить, как и в какой степени вычислительные машины могут имитировать работу человеческого мозга. Этим вопросом задавался британский ученый, именем которого и названо открытие.

Алан Тьюринг был математиком и криптографом — специалистом по дешифровке кодовых сообщений. Во время Второй мировой войны он возглавлял группу, которая анализировала секретные послания немецкого военно-морского флота. Так появился компьютер Bombe, сумевший взломать Enigma ― один из самых сложных шифров в истории.

Как работала «Энигма»

В 1950 году в философском журнале Mind вышла статья Тьюринга «Вычислительные машины и разум». В ней ученый обобщил размышления о возможностях машин мыслить как люди и предложил конкретный критерий оценки ― эксперимент, позволяющий сравнить мыслительные способности машины и человека.

В чем заключается суть теста Тьюринга

В середине XX века была популярна игра в имитацию. В отдельных комнатах находились мужчина, женщина и ведущий любого пола. Последний печатал на машинке вопросы и посылал их участникам. Отвечая, они могли притворяться друг другом. Ведущий должен был угадать по напечатанному ответу, кто его автор.

После размышлений об умственных особенностях вычислительных машин Алан Тьюринг предложил сыграть в имитацию, заменив одного из игроков компьютером. Как и человеку, ему нужно было ответить на вопросы. Предполагалось, что если ведущий не догадается, кто перед ним — человек или механизм, то последний успешно прошел тест.

Второй вариант эксперимента, который Тьюринг предложил позднее, предполагал наличие жюри. Машина должна убедить ответами, что она — человек. Ученый считал, что если компьютер ответит на 30% вопросов, то он справился с заданием.

Суть теста Тьюринга заключается в проверке способности машины имитировать человеческое поведение в текстовом диалоге так, чтобы человек-судья не смог отличить ее от человека. Тест стал ориентиром для разработчиков, побуждая их создавать системы, способные к естественной обработке языка (NLP).
Константин Куликов
начальник центра генеративного проектирования Сбербанка, преподаватель НИТУ МИСиС

При жизни Тьюринга тест так и не был проведен, но он надолго стал источником размышлений о возможностях искусственного интеллекта.

Примеры вопросов в тесте Тьюринга для проверки машин

Алан Тьюринг не давал точного списка вопросов для теста. Они могут быть самыми разными: от односложных до каверзных, требующих выстроить логическую цепочку, проанализировать ряд данных и сделать вывод.

Вот какие вопросы задавали вычислительным машинам в разное время:

«Какой сегодня день недели?» ― этот вопрос проверяет, способен ли компьютер ориентироваться во времени.
«Кто президент США?» ― отвечая на вопрос, машина показывает способность ориентироваться в политической ситуации и общественных процессах.
«Сколько будет 7 умножить на 9?» ― так проверялась способность компьютера совершать базовые математические операции.
«Какой самый высокий горный пик в мире?» ― правильный ответ показал бы умение ЭВМ ориентироваться в массе накопленных человеком знаний.
«Я хочу есть. Что вы мне посоветуете?» ― вопрос требует понимания контекста, учета разных факторов и способности сформулировать на их основе адекватный ответ.
«Что вы будете делать в выходные?» ― с помощью этого вопроса ведущий проверяет, может ли машина генерировать сценарии гипотетических действий.
«Если все собаки — млекопитающие, а все млекопитающие — животные, то все собаки — животные?» ― проверяется способность делать логические умозаключения.
«Если у вас есть пять синих и три красных шара, и вы случайно выбираете один, какова вероятность, что он будет синим?» ― вопрос выявляет, умеет ли механизм работать с вероятностью и может ли формулировать ответы на ее основе.

Отберут ли нейросети у нас работу

Существуют ли ИИ, прошедшие тест Тьюринга

Современные программы умеют проводить сложнейшие вычисления, обрабатывать большое количество данных, создавать изображения, видео и тексты, обыгрывать людей в шахматы. Но нет ни одной, которую ученые единогласно признали бы прошедшей тест Тьюринга. Хотя попыток было немало.

Eliza, 1966 год. Программа, созданная американским ученым Джозефом Вайценбаумом, бодро отвечала на вопросы теста, но при этом перефразировала их, повторяя суть. Часть людей, которая участвовала в эксперименте, поверила, что это человек. Однако им заранее сказали, что они будут говорить с психотерапевтом.
Parry, 1972 год. Ученый из Стэнфорда Кеннет Колб написал программу, которая должна была помочь в изучении параноидальной шизофрении. Сначала с Parry и несколькими людьми с таким диагнозом общались психиатры. Потом распечатки бесед передали другим психиатрам для изучения. 48% из них поверили, что Parry — человек.
Cleverbot, 1988 год. Чат-бот от британского ученого Ролло Карпентера заставил 59% людей, участвующих в тесте Тьюринга, поверить, что испытуемый — человек.
«Женя Густман», 2014 год. Чат-бот, который сыграл роль подростка из Одессы с плохим знанием английского языка, успешно имитировал ответы человека на вопросы теста Тьюринга. Некоторые специалисты посчитали, что формально он справился. Однако другие ученые заявили, что бот часто менял тему и применял уловки, скрывающие его ограничения.

«Формально некоторые программы, такие как «Женя Густман» в 2014 году, были признаны прошедшими тест Тьюринга. Это утверждение вызывает споры, и многие эксперты считают, что тест в полном смысле никто не прошел, — объясняет эксперт Константин Куликов. — Чат-бот «Женя Густман», разработанный Владимиром Веселовым, Евгением Демченко и Сергеем Уласенем, убедил 33% судей на конкурсе в Университете Рединга, что он является 13-летним мальчиком из Одессы. Он использовал стратегию имитации подростка с ограниченными знаниями и языковыми ошибками, что делало ошибки правдоподобными и снижало ожидания судей. Тьюринг не устанавливал конкретный процент (например, 33%) как критерий прохождения теста. По его предположению, машина должна обманывать судей в большинстве случаев (около 70% после 5 минут разговора). Тест длился всего 5 минут, что недостаточно для проверки устойчивой способности машины поддерживать диалог. Более длительные тесты могли бы выявить ограничения чат-бота».

Чат-бот «Женя Густман» глазами ИИ — Чат-бот «Женя Густман» убедил 33% судей на конкурсе в Университете Рединга, что он является 13-летним мальчиком из ОдессыИсточник: Unsplash

По словам эксперта, тест Тьюринга оценивает только способность машины имитировать человеческое поведение, а не ее реальный интеллект, умение рассуждать, решать проблемы или понимать контекст.

Чат-бот может убедительно имитировать человека, используя шаблоны ответов, но не обладать глубоким пониманием.
Константин Куликов
начальник центра генеративного проектирования Сбербанка, преподаватель НИТУ МИСиС

По словам эксперта, тест фокусируется на лингвистических способностях, игнорируя другие аспекты интеллекта, такие как физическое взаимодействие, креативность, аналитическое мышление или адаптация к новым задачам. Во времена Тьюринга вычислительные машины были крайне ограничены. Современные нейросети, такие как GigaChat, ChatGPT или любые другие LLM, обладают гораздо более сложными возможностями, и тест Тьюринга не отражает их полный потенциал.

Некоторые эксперты в индустрии считают, что критерии Тьюринга занижают стандарты для ИИ, препятствуя разработке более амбициозных систем. К тому же тест поощряет ИИ к имитации человеческих недостатков (например, лжи или манипуляций), что может быть нежелательным для создания полезных и этичных систем.

Существует понятие «обратный тест Тьюринга» — исследование, когда человек вступает в диалог с машиной, стараясь соответствовать ее логике и уровню восприятия мира.

Разновидность обратного теста Тьюринга — капча. Некоторые сайты просят пользователя подтвердить, что он человек, например, выбрав из ряда картинок определенную категорию изображений.

Пользователи обнаружили странное поведение капчи в Discord

Критика теста Тьюринга

У этого метода исследования компьютерного разума есть существенные недостатки. Именно поэтому ученые, которые изучают искусственный интеллект, практически не используют тест в работе. Вот его основные слабые места:

Однобокость — в расчет берется только один параметр. Тьюринг предлагал проверить способность машины в диалоге. Но у ИИ много других параметров, например способность к самосознанию, решению творческих задач, обучению, адаптации к меняющимся условиям.
Субъективность — тест оценивает конкретный человек. Каждый судья под разумным поведением понимает что-то свое. Таким образом, получить объективные результаты и сделать точные выводы на их основе некорректно.
Возможность обмана ― можно запрограммировать компьютер, чтобы он имитировал определенное поведение. Это и произошло с «Женей Густманом»: судьи поверили, что это реальный мальчик из-за его плохого английского и колких шуток. Но оценивать интеллект в целом по этим критериям невозможно.
Ограниченность метода — тест Тьюринга включает текстовый диалог с машиной. Однако интеллект заключается не только в способности письменно отвечать на вопросы.

Мозг и робот — Превосходство человеческого разума над роботамиИсточник: Unsplash

«Тест способствовал прогрессу в таких областях, как машинное обучение, обработка текстов и диалоговые системы, которые являются основой современных нейросетей. Кроме того, он поднял вопросы о природе интеллекта, сознания и этических аспектах ИИ. Если машина проходит тест, следует ли считать ее разумной? Это стимулировало дискуссии, которые продолжают влиять на развитие ИИ, — добавляет Константин Куликов. — Однако с развитием нейросетей акцент сместился на более специализированные задачи ― распознавание образов, генерацию текста, принятие решений, где имитация человека — не главная цель».

Главное о тесте Тьюринга

Собрали самое важное об исследовании разума машин, которое придумал Алан Тьюринг.

Британский математик предложил видоизменить популярную в середине XX века игру в имитацию и заменить одного участника вычислительной машиной.
Судья должен был предлагать игрокам (компьютеру и человеку) вопросы, напечатанные на машинке. По ответам ему нужно было догадаться, кто их автор.
Вопросы предлагались самые разные — на логику, способности к вычислению и анализу, на умение ориентироваться в общественно-политической ситуации, строить логическую цепочку и т. д.
Разные программы в разное время проходили тест Тьюринга. Они смогли обмануть некоторое количество судей, но говорить об абсолютной победе искусственного разума не приходится.
Тест оценивает интеллект машины только с одной стороны: она отвечает на печатные вопросы. Этого недостаточно, чтобы объективно сравнить возможности компьютера с человеческим разумом.
Тест Тьюринга — важная веха в развитии и исследовании искусственного интеллекта, но в современной информатике он не используется.