ChatGPT проходит знаменитый «тест Тьюринга»

ChatGPT проходит знаменитый «тест Тьюринга», предполагающий, что ИИ-бот имеет интеллект, эквивалентный человеческому, утверждают ученые

Ученые утверждают, что ChatGPT-4 — первый ИИ, прошедший тест Тьюринга для двух игроков. ИИ смог обмануть собеседника в 54% случаев.

С тех пор, как это было впервые предложено в 1950 году, прохождение «теста Тьюринга» рассматривалось как одна из высших целей ИИ.

Но теперь исследователи утверждают, что ChatGPT стал первым искусственным интеллектом, прошедшим этот знаменитый тест на человеческий интеллект.

Предложенная пионером компьютеров Аланом Тьюрингом, она утверждает, что ИИ следует считать по-настоящему разумным, если люди не могут определить, с кем они разговаривают: с человеком или с машиной.

В предварительной статье ученые-когнитивисты из Калифорнийского университета в Сан-Диего утверждают, что ChatGPT-4 может обмануть людей в более чем половине случаев.

Однако исследователи говорят, что это может больше сказать о тесте Тьюринга, чем об интеллекте современного ИИ.

Еще в 1950 году британский взломщик кодов времен Второй мировой войны Алан Тьюринг создал то, что, по его мнению, станет окончательным испытанием компьютерного интеллекта.

Он представил, что участник-человек будет сидеть за экраном и разговаривать либо с человеком, либо с компьютером через текстовый интерфейс.

Если бы компьютер нельзя было отличить от человека по широкому спектру возможных вопросов, рассуждал Тьюринг, нам пришлось бы признать, что он так же разумен, как и человек.

Повторяя этот знаменитый тест, исследователи попросили 500 участников поговорить с четырьмя разными агентами: тремя искусственными интеллектами и одним человеком.

В качестве ИИ выступили ChatGPT-4, ChatGPT-3.5 — две модели популярного чат-бота от OpenAI — и программа чата эпохи 1960-х годов под названием ELIZA.

Участников поместили в чат и сказали, что им нужно либо убедить другого человека в том, что он человек, либо выяснить, с кем они разговаривают.

Затем участникам дали пообщаться в течение пяти минут, прежде чем их спросили, думают ли они, что разговаривают с компьютером или с человеком, почему они так думают и насколько они уверены в себе.

В то время как устаревшая ELIZA обманывала участников только 22 процента времени, ChatGPT-3.5 оставался незамеченным в 50 процентах разговоров.

Более продвинутая версия ChatGPT-4 показала себя еще лучше: участники в 54 процентах случаев называли ее человеком.

Это означает, что ChatGPT-4 способен выдавать себя за человека чаще, чем можно было бы предположить.

И если это кажется низким, стоит отметить, что участники правильно идентифицировали людей как таковых только в 67 процентах разговоров.

Исследователи пишут, что эти результаты «представляют собой первую надежную эмпирическую демонстрацию того, что любая искусственная система проходит интерактивный тест Тьюринга для двух игроков».

Стоит отметить, что это предварительная версия статьи, то есть в настоящее время она ожидает рецензирования, поэтому к результатам следует относиться с некоторой осторожностью.

Однако, если результаты подтвердятся, это станет первым убедительным доказательством того, что ИИ когда-либо прошел тест Тьюринга, как это предполагал Алан Тьюринг.

Нелл Уотсон, исследователь искусственного интеллекта в Институте инженеров по электротехнике и электронике (IEEE), рассказала Live Science : «Машины могут выдумывать, смешивая воедино правдоподобные обоснования вещей постфактум, как это делают люди.

«Все эти элементы означают, что в системах искусственного интеллекта выражаются человеческие слабости и причуды, что делает их более похожими на человека, чем предыдущие подходы, которые имели не более чем список готовых ответов».

Важно отметить, что низкая эффективность программы ELIZA также подтверждает значимость этих результатов.

Хотя может показаться странным включать программу 1960-х годов в испытание передовых технологий, эта модель была включена для проверки так называемого «эффекта ELIZA».

Эффект ELIZA — это идея о том, что люди могут придавать человеческие характеристики даже очень простым системам.

Но тот факт, что людей обманул ChatGPT, а не ELIZA, позволяет предположить, что этот результат «нетривиален».

Исследователи также отмечают, что изменение общественного восприятия ИИ могло изменить результаты, которые мы должны ожидать от теста Тьюринга.

Они пишут: «На первый взгляд, низкий процент прохождения людьми может быть удивительным.

«Если тест измеряет человеческое сходство, разве люди не должны быть на 100%?»

В 1950 году это предположение имело бы полный смысл, поскольку в мире без развитого искусственного интеллекта мы бы предположили, что все, что звучит по-человечески, является человеком.

Но по мере того, как общественность становится все более осведомленной об ИИ, а наша уверенность в ИИ растет, мы все чаще ошибочно идентифицируем людей как ИИ.

Это может означать, что небольшой разрыв между скоростью прохождения людей и ChatGPT-4 является еще более убедительным доказательством компьютерного интеллекта.

В феврале этого года исследователи из Стэнфорда обнаружили, что ChatGPT может пройти версию теста Тьюринга, в которой ИИ отвечает на широко используемый личностный тест.

Хотя эти исследователи обнаружили, что результаты ChatGPT-4 неотличимы от результатов людей, эта последняя статья является одним из первых случаев, когда ИИ прошел надежный тест Тьюринга для двух игроков, основанный на разговоре.

Однако исследователи также признают, что существует давняя и обоснованная критика теста Тьюринга.

Исследователи отмечают, что «стилистические и социально-эмоциональные факторы играют большую роль в прохождении теста Тьюринга, чем традиционные представления об интеллекте».

Следователи гораздо чаще называли стиль, индивидуальность и тон причиной идентификации своего собеседника как робота, чем что-либо, связанное с интеллектом.

Аналогичным образом, одной из наиболее успешных стратегий идентификации роботов был опрос о человеческом опыте, который срабатывал в 75 процентах случаев.

Это говорит о том, что тест Тьюринга на самом деле не доказывает, что система разумна, а скорее измеряет ее способность имитировать или обманывать людей.

В лучшем случае исследователи предполагают, что это обеспечивает «вероятностное» подтверждение утверждения о том, что ChatGPT интеллектуален.

Но это не значит, что тест Тьюринга бесполезен, поскольку исследователи отмечают, что способность выдавать себя за людей будет иметь огромные экономические и социальные последствия.

Исследователи говорят, что достаточно убедительные ИИ могут «выполнять экономически ценные функции по работе с клиентами, которые исторически были прерогативой людей-работников, вводить в заблуждение широкую общественность или своих собственных операторов-людей и подрывать социальное доверие к аутентичным человеческим взаимодействиям».

В конечном счете, тест Тьюринга может быть лишь частью того, что нам нужно оценить, когда мы хотим разработать систему искусственного интеллекта.

Г-жа Уотсон говорит: «Необработанный интеллект заходит так далеко. Что действительно важно, так это быть достаточно умным, чтобы понять ситуацию, навыки других и обладать сочувствием, чтобы соединить эти элементы воедино.

«Возможности — это лишь малая часть ценности ИИ. Их способность понимать ценности, предпочтения и границы других также важна».