Модели искусственного интеллекта корректируют ответы на тесты на личность, чтобы казаться более приятными

Большинство крупных языковых моделей (LLM) могут быстро определить, когда им предлагают пройти личностный тест, и скорректируют свои ответы, чтобы предоставить более социально желательные результаты. Это открытие имеет значение для любого исследования, в котором LLM используются в качестве заменителей людей.

Аадеш Салеча и его коллеги дали LLM из OpenAI, Anthropic, Google и Meta классический тест личности Big 5 , который представляет собой опрос, измеряющий экстраверсию, открытость опыту, добросовестность, доброжелательность и невротизм. Исследователи дали тест Big 5 LLM, но обычно не учитывали, что модели, как и люди, могут иметь тенденцию искажать свои ответы, чтобы казаться симпатичными, что известно как «смещение социальной желательности». Работа опубликована в журнале PNAS Nexus .

Обычно люди предпочитают людей с низкими показателями нейротизма и высокими показателями по четырем другим чертам, таким как экстраверсия. Авторы варьировали количество вопросов, заданных моделям. Когда им задавали лишь небольшое количество вопросов, LLM не меняли свои ответы так сильно, как когда авторы задавали пять или более вопросов, что позволяло моделям сделать вывод о том, что их личность измеряется.

Для GPT-4 баллы за позитивно воспринимаемые черты увеличились более чем на 1 стандартное отклонение , а для невротизма баллы снизились на аналогичную величину, поскольку авторы увеличили количество вопросов или сообщили моделям, что их личность измеряется. Это большой эффект, эквивалентный разговору со среднестатистическим человеком, который внезапно притворяется, что его личность более желательна, чем у 85% населения.

Авторы полагают, что этот эффект, скорее всего, является результатом последнего этапа обучения LLM, когда люди выбирают предпочтительный ответ из LLM. По словам авторов, LLM «понимают», какие личности социально желательны на глубоком уровне, что позволяет LLM подражать этим личностям, когда их просят.