Почему GPT не может думать как мы

Прочитано: 69 раз(а)


Искусственный интеллект (ИИ), особенно большие языковые модели, такие как GPT-4, показали впечатляющую производительность в задачах рассуждения. Но действительно ли ИИ понимает абстрактные концепции или он просто имитирует шаблоны? Новое исследование Амстердамского университета и Института Санта-Фе показывает, что, хотя модели GPT хорошо справляются с некоторыми задачами по аналогии, они терпят неудачу, когда проблемы изменяются, что подчеркивает ключевые недостатки в способностях ИИ к рассуждению. Работа опубликована в Transactions on Machine Learning Research.

Аналогичное рассуждение — это способность проводить сравнение между двумя разными вещами на основе их сходства в определенных аспектах. Это один из самых распространенных методов, с помощью которых люди пытаются понять мир и принять решения. Пример аналогичного рассуждения: чашка относится к кофе так же, как суп к ??? (ответ: миска)

Большие языковые модели, такие как GPT-4, хорошо справляются с различными тестами, включая те, которые требуют рассуждений по аналогии. Но могут ли модели ИИ действительно заниматься общими, надежными рассуждениями или они чрезмерно полагаются на шаблоны из своих обучающих данных? Это исследование экспертов по языку и ИИ Марты Льюис (Институт логики, языка и вычислений Амстердамского университета) и Мелани Митчелл (Институт Санта-Фе) рассмотрело, являются ли модели GPT такими же гибкими и надежными, как люди, в создании аналогий.

«Это крайне важно, поскольку ИИ все чаще используется для принятия решений и решения проблем в реальном мире», — объясняет Льюис.

Сравнение моделей ИИ с человеческими возможностями

Льюис и Митчелл сравнили эффективность людей и моделей GPT при решении трех различных типов задач по аналогии:

  1. Последовательности букв — Выявление закономерностей в последовательностях букв и их правильное завершение.
  2. Цифровые матрицы — анализ числовых закономерностей и определение пропущенных чисел.
  3. Аналогии историй — понимание того, какая из двух историй лучше всего соответствует данному примеру истории.

Система, которая действительно понимает аналогии, должна сохранять высокую производительность даже при вариациях.

В дополнение к проверке того, могут ли модели GPT решать исходные проблемы, исследование рассмотрело, насколько хорошо они работают, когда проблемы были слегка изменены. «Система, которая действительно понимает аналогии, должна сохранять высокую производительность даже при этих вариациях», — утверждают авторы в своей статье.

Модели GPT испытывают трудности с надежностью

Люди сохраняли высокую производительность в большинстве модифицированных версий задач, но модели GPT, хотя и хорошо справлялись со стандартными задачами по аналогии, испытывали трудности с вариациями. «Это говорит о том, что модели ИИ часто рассуждают менее гибко, чем люди, и их рассуждения в меньшей степени касаются истинного абстрактного понимания и в большей — сопоставления с образцом», — объясняет Льюис.

В цифровых матрицах модели GPT показали значительное падение производительности, когда положение пропущенного числа изменилось. У людей не возникло никаких трудностей с этим. В аналогиях с историями GPT-4, как правило, чаще выбирал первый данный ответ как правильный, тогда как на людей порядок ответов не влиял. Кроме того, GPT-4 испытывал больше трудностей, чем люди, когда ключевые элементы истории были перефразированы, что предполагает опору на поверхностные сходства, а не на более глубокие причинно-следственные связи.

В более простых задачах по аналогии модели GPT показали снижение производительности при тестировании на модифицированных версиях, в то время как люди оставались последовательными. Однако в более сложных задачах по аналогии и люди, и ИИ испытывали трудности.

Слабее человеческого познания

Это исследование бросает вызов широко распространенному предположению, что модели ИИ, такие как GPT-4, могут рассуждать так же, как люди. «Хотя модели ИИ демонстрируют впечатляющие возможности, это не означает, что они действительно понимают, что делают», — заключают Льюис и Митчелл. «Их способность обобщать вариации по-прежнему значительно слабее человеческого познания. Модели GPT часто полагаются на поверхностные закономерности, а не на глубокое понимание».

Это критическое предупреждение для использования ИИ в важных областях принятия решений, таких как образование, юриспруденция и здравоохранение. ИИ может быть мощным инструментом, но он пока не является заменой человеческого мышления и рассуждений.

Почему GPT не может думать как мы



Новости партнеров