ChatGPT борется с головоломками Wordle

Чат-бот с искусственным интеллектом, известный как ChatGPT, разработанный компанией OpenAI, привлек внимание и воображение публики. Некоторые области применения технологии действительно впечатляют, например, ее способность резюмировать сложные темы или участвовать в длинных беседах.

Неудивительно, что другие компании, занимающиеся ИИ, спешат выпустить свои собственные большие языковые модели (LLM) — название технологии, лежащей в основе чат-ботов, таких как ChatGPT. Некоторые из этих LLM будут включены в другие продукты, такие как поисковые системы.

Имея в виду его впечатляющие возможности, я решил протестировать чат-бот на Wordle — словесной игре из New York Times, в которую я играю уже некоторое время. У игроков есть шесть попыток угадать слово из пяти букв . При каждом предположении игра указывает, какие буквы, если они есть, находятся на правильных позициях в слове.

Используя последнее поколение под названием ChatGPT-4 , я обнаружил, что его производительность при решении этих головоломок была на удивление низкой. Вы можете ожидать, что словесные игры будут проще простого для GPT-4. LLM «тренируются» на тексте, что означает, что они получают информацию, чтобы они могли совершенствоваться в том, что они делают. ChatGPT-4 был обучен примерно на 500 миллиардах слов: вся Википедия, все общедоступные книги, огромные объемы научных статей и тексты со многих веб-сайтов.

Чат-боты с искусственным интеллектом могут сыграть важную роль в нашей жизни. Понимание того, почему ChatGPT-4 борется с Wordle, дает представление о том, как LLM представляют слова и работают со словами, а также о связанных с этим ограничениях.

Сначала я протестировал ChatGPT-4 на головоломке Wordle, где я знал правильное расположение двух букв в слове. Шаблон был «#E#L#», где «#» представлял неизвестные буквы. Ответом было слово «мучнистый».

Пять из шести ответов ChatGPT-4 не соответствовали шаблону. Ответы были: «берилл», «дикий», «герал», «мерль», «ревель» и «жемчуг».

С другими комбинациями чат-бот иногда находил правильные решения. Но в целом получилось очень удачно. В случае слова, подходящего под шаблон «##OS#», было найдено пять правильных вариантов. Но когда шаблон был «#R#F#», он предлагал два слова без буквы F и слово «Traff», которого нет в словарях.

В основе ChatGPT

В основе ChatGPT лежит глубокая нейронная сеть : сложная математическая функция или правило, которое сопоставляет входные данные с выходными. Входы и выходы должны быть числами. Поскольку ChatGPT-4 работает со словами, их необходимо «перевести» в числа, чтобы нейронная сеть могла с ними работать.

Перевод выполняется компьютерной программой, называемой токенизатором , которая поддерживает огромный список слов и последовательностей букв, называемых «токенами». Эти токены идентифицируются номерами. Такое слово, как «друг», имеет идентификатор токена 6756, поэтому такое слово, как «дружба», разбито на токены «друг» и «корабль». Они представлены как идентификаторы 6756 и 6729.

Когда пользователь вводит вопрос, слова переводятся в числа еще до того, как ChatGPT-4 начнет обрабатывать запрос. Глубокая нейронная сеть не имеет доступа к словам в виде текста, поэтому она не может рассуждать о буквах.

Стихотворное задание

ChatGPT-4 хорошо работает с первыми буквами слов. Я попросил его написать стихотворение, в котором первая буква каждой строки гласила: «Я люблю роботов». Его реакция была на удивление хорошей. Вот первые четыре строки:

Я фанат шестеренок и стали

Любя их движения, такие сюрреалистичные,

По цепям они быстро правят

Соревнуясь за знания, они не дураки,

Обучающие данные для ChatGPT-4 включают огромное количество учебников, которые часто включают алфавитные указатели. Этого могло быть достаточно, чтобы GPT-4 выучил ассоциации между словами и их первыми буквами.

Токенизатор, по-видимому, также был модифицирован для распознавания таких запросов и, по-видимому, разбивает фразу, такую как «Я люблю роботов», на отдельные токены, когда пользователи вводят свой запрос. Однако ChatGPT-4 не смог обработать запросы на работу с последними буквами слов.

ChatGPT-4 тоже плохо работает с палиндромами. На просьбу составить фразу-палиндром о роботе он предложил «сот робота, орба», что не подходит под определение палиндрома и опирается на непонятные слова.

Однако LLM относительно хороши в создании других компьютерных программ . Это связано с тем, что их обучающие данные включают множество веб-сайтов, посвященных программированию. Я попросил ChatGPT-4 написать программу для определения пропущенных букв в Wordle.

Первоначальная программа, созданная ChatGPT-4, содержала ошибку. Он исправил это, когда я указал на это. Когда я запустил программу, она обнаружила 48 правильных слов, соответствующих шаблону «#E#L#», включая «tells», «cells» и «hello». Когда я ранее напрямую просил GPT-4 предложить совпадения для этого шаблона, он нашел только одно.

Будущие исправления

Может показаться удивительным, что большая языковая модель, такая как ChatGPT-4, с трудом решает простые словесные головоломки или формулирует палиндромы, поскольку обучающие данные включают почти все доступные ей слова.

Однако это связано с тем, что все текстовые входы должны быть закодированы как числа, а процесс, который делает это, не фиксирует структуру букв в словах. Поскольку нейронные сети работают исключительно с числами, требование кодировать слова как числа не изменится.

Есть два способа, которыми будущие LLM могут преодолеть это. Во-первых, ChatGPT-4 знает первую букву каждого слова, поэтому его обучающие данные можно дополнить, включив сопоставления позиций каждой буквы в каждом слове в его словаре.

Второе — более захватывающее и общее решение. Будущие LLM смогут генерировать код для решения подобных проблем, как я показал. В недавней статье была продемонстрирована идея под названием Toolformer , в которой LLM использует внешние инструменты для выполнения задач, с которыми они обычно сталкиваются, например, для арифметических вычислений.

Мы находимся на заре этих технологий, и подобное понимание текущих ограничений может привести к еще более впечатляющим технологиям искусственного интеллекта.