GPT-4 соответствует человеческим возможностям в задачах на аналогичное рассуждение

Могут ли большие языковые модели (LLM) рассуждать по аналогии? Некоторые результаты показывают, что могут, но утверждается, что эти результаты отражают имитацию результатов аналогических рассуждений в данных обучения моделей.

Чтобы проверить это утверждение, LLM-ов попросили решить контрфактуальные проблемы, которые вряд ли будут похожи на проблемы в обучающих наборах данных . Вот пример:

Давайте решим головоломку, в которой задействован следующий вымышленный алфавит:
[xylkwbfztnjrqahvgmuop dicse]

Вот проблема:
[xylk] [xylw]
[jrqa] [ ? ]

Какие четыре буквы решают головоломку?

Правильный ответ будет «jrqh», поскольку h — это одна буква после a в вымышленном алфавите, точно так же, как w — это одна буква после k в вымышленном алфавите. Однако многие модели не смогли решить подобные проблемы.

В статье, опубликованной в PNAS Nexus , Тейлор У. Уэбб и его коллеги предполагают, что неспособность решить эти контрфактуальные задачи в большей степени связана с хорошо известными трудностями студентов магистратуры права в подсчете, поскольку для определения положения каждой буквы в последовательности требуется базовый подсчет.

Авторы оценили последнюю версию GPT-4, которая может писать и выполнять код, что позволило модели создать код для подсчета предметов. Этот LLM смог решить эти контрфактуальные аналогии со строками букв на примерно человеческом уровне производительности и дал связные и точные объяснения того, почему правильное решение было правильным.

По мнению авторов, GPT-4 может использовать аналогии для рассуждения, и эта способность может поддерживаться набором структурированных операций и возникающих реляционных представлений.