ИИ проваливает языковой тест, исключая грамматику из уравнения

Прочитано: 169 раз(а)


Генеративные системы искусственного интеллекта, такие как большие языковые модели и генераторы текста в изображения, могут сдавать строгие экзамены, которые требуются от любого, кто хочет стать врачом или юристом . Они могут показать лучшие результаты, чем большинство людей на математических олимпиадах . Они могут писать более-менее приличные стихи , создавать эстетически приятные картины и сочинять оригинальную музыку.

Эти замечательные возможности могут создать впечатление, что генеративные системы искусственного интеллекта готовы взять на себя работу людей и оказать значительное влияние практически на все аспекты общества. Однако, хотя качество их продукции иногда соперничает с работой, проделанной людьми, они также склонны уверенно штамповать фактически неверную информацию. Скептики также подвергают сомнению их способность рассуждать .

Большие языковые модели были созданы для имитации человеческого языка и мышления, но они далеки от человека. С младенчества люди учатся через бесчисленные сенсорные впечатления и взаимодействия с окружающим миром. Большие языковые модели не учатся так, как люди, — вместо этого они обучаются на огромных массивах данных, большая часть которых взята из интернета.

Возможности этих моделей весьма впечатляют, и существуют агенты ИИ, которые могут посещать встречи вместо вас, ходить за вас по магазинам или обрабатывать страховые иски . Но прежде чем передавать ключи большой языковой модели для решения любой важной задачи, важно оценить, как их понимание мира соотносится с пониманием мира людей.

Я исследователь, изучающий язык и значение. Моя исследовательская группа разработала новый критерий , который может помочь людям понять ограничения больших языковых моделей в понимании значения.

Понимание смысла простых словосочетаний

Так что же «имеет смысл» для больших языковых моделей? Наш тест включает оценку осмысленности двухсловных фраз существительное-существительное. Для большинства людей, которые бегло говорят по-английски, пары слов существительное-существительное, такие как «beach ball» и «apple cake», имеют смысл, но «ball beach» и «cake apple» не имеют общепонятного значения. Причины этого не имеют ничего общего с грамматикой. Это фразы, которые люди выучили и обычно принимают как осмысленные, разговаривая и взаимодействуя друг с другом с течением времени.

Мы хотели проверить, имеет ли большая языковая модель такое же чувство смысла словосочетаний, поэтому мы создали тест, который измерял эту способность, используя пары существительное-существительное, для которых правила грамматики были бы бесполезны в определении того, имеет ли фраза узнаваемое значение. Например, пара прилагательное-существительное, такая как «красный мяч», имеет смысл, в то время как ее перестановка, «мяч красный», делает словосочетание бессмысленным.

Тест не спрашивает у большой языковой модели, что означают слова. Вместо этого он проверяет способность большой языковой модели извлекать значение из пар слов, не полагаясь на опору простой грамматической логики. Тест не оценивает объективный правильный ответ как таковой, но оценивает, имеют ли большие языковые модели такое же чувство осмысленности, как и люди.

Мы использовали коллекцию из 1789 пар существительное-существительное, которые ранее были оценены людьми-оценщиками по шкале от 1, не имеет смысла вообще, до 5, имеет полный смысл. Мы исключили пары с промежуточными оценками, чтобы было четкое разделение между парами с высоким и низким уровнем осмысленности.

Затем мы попросили самые современные большие языковые модели оценить эти пары слов так же, как и людей, участвовавших в предыдущем исследовании, используя идентичные инструкции. Большие языковые модели показали плохие результаты. Например, «cake apple» было оценено людьми как имеющее низкую осмысленность, со средней оценкой около 1 по шкале от 0 до 4. Но все большие языковые модели оценили его как более осмысленное, чем 95% людей, оценив его между 2 и 4. Разница была не такой большой для осмысленных фраз, таких как «dog sleed», хотя были случаи, когда большая языковая модель давала таким фразам более низкие оценки, чем 95% людей.

Чтобы помочь большим языковым моделям, мы добавили больше примеров в инструкции, чтобы посмотреть, выиграют ли они от большего контекста в отношении того, что считается высокозначимой парой слов по сравнению с незначимой. Хотя их производительность немного улучшилась, она все еще была намного хуже, чем у людей. Чтобы еще больше облегчить задачу, мы попросили большие языковые модели вынести бинарное суждение — сказать «да» или «нет» относительно того, имеет ли фраза смысл, — вместо того, чтобы оценивать уровень осмысленности по шкале от 0 до 4. Здесь производительность улучшилась, причем GPT-4 и Claude 3 Opus справились лучше, чем другие, — но они все еще были намного ниже производительности человека.

Творческий до неприличия

Результаты показывают, что большие языковые модели не обладают такими же возможностями осмысления, как люди. Стоит отметить, что наш тест основан на субъективной задаче, где золотым стандартом являются оценки, данные людьми. Не существует объективно правильного ответа, в отличие от типичных контрольных показателей оценки больших языковых моделей, включающих рассуждение, планирование или генерацию кода.

Низкая результативность была в значительной степени обусловлена ​​тем фактом, что большие языковые модели имели тенденцию переоценивать степень, в которой пара существительное-существительное квалифицировалась как значимая. Они придавали смысл вещам, которые не должны были иметь особого смысла. Образно говоря, модели были слишком креативны. Одно из возможных объяснений заключается в том, что пары слов с низкой осмысленностью могли иметь смысл в некотором контексте. Пляж, покрытый мячами, можно было бы назвать «мячным пляжем». Но среди носителей английского языка нет общепринятого использования этой комбинации существительное-существительное.

Если большие языковые модели должны частично или полностью заменить людей в некоторых задачах, их нужно будет доработать, чтобы они могли лучше понимать мир, в большей степени соответствуя тому, как это делают люди. Когда что-то неясно, запутанно или просто бессмысленно — будь то из-за ошибки или злонамеренной атаки — важно, чтобы модели отметили это, а не пытались творчески понять почти все.

Если агент ИИ, автоматически отвечающий на электронные письма, по ошибке получает сообщение, предназначенное другому пользователю, подходящим ответом может быть «Извините, это не имеет смысла», а не творческая интерпретация. Если кто-то на встрече сделал непонятные замечания, мы хотим, чтобы агент, присутствовавший на встрече, сказал, что комментарии не имеют смысла. Агент должен сказать: «Кажется, речь идет о другом страховом иске», а не просто «иск отклонен», если детали иска не имеют смысла.

Другими словами, для агента ИИ важнее иметь схожее чувство смысла и вести себя как человек в случае неопределенности, а не всегда предлагать творческие интерпретации.

ИИ проваливает языковой тест, исключая грамматику из уравнения



Новости партнеров