ChatGPT неточен при ответах на вопросы по компьютерному программированию

Команда учёных-компьютерщиков из Университета Пердью обнаружила, что популярная программа LLM ChatGPT крайне неточно отвечает на вопросы по компьютерному программированию. В своей статье , опубликованной в рамках конференции CHI по человеческому фактору в вычислительных системах , группа описывает, как они извлекали вопросы с веб-сайта StackOverflow и задавали их в ChatGPT, а затем измеряли степень точности ответов.

Команда также представила свои выводы на конференции по человеческому фактору в вычислительных системах ( CHI 2024 ), проходившей 11–16 мая.

ChatGPT и другие LLM в последнее время часто упоминаются в новостях — поскольку такие приложения стали доступны широкой публике, они стали очень популярными. К сожалению, наряду с сокровищницей полезной информации, содержащейся во многих ответах таких приложений, есть и масса неточностей. Еще более прискорбно то, что не всегда понятно, когда приложения дают неправильные ответы.

В этом новом исследовании команда Purdue отметила, что многие студенты- программисты начали использовать LLM не только для написания кода для заданий по программированию, но и для ответа на вопросы, связанные с программированием. Например, студент может спросить ChatGPT, в чем разница между пузырьковой сортировкой и сортировкой слиянием или, что более популярно, что такое рекурсия?

Чтобы выяснить, насколько точны LLM в ответах на такие вопросы, исследовательская группа сосредоточила свои усилия только на одном из них — ChatGPT. Чтобы найти вопросы для тестирования приложения, исследователи использовали вопросы, свободно доступные на веб-сайте StackOverflow — это сайт, созданный, чтобы помочь программистам узнать больше о программировании, работая с другими людьми в их области интересов. В одной части сайта пользователи могут публиковать вопросы, на которые будут отвечать другие, знающие ответы.

Исследовательская группа использовала 517 вопросов, найденных на сайте, а затем измерила, как часто ChatGPT давал правильные ответы. К сожалению, это было всего в 52% случаев. Они также обнаружили, что ответы, как правило, были более многословными, чем в случае, если бы тот же вопрос задавался эксперту-человеку.

Вызывает тревогу тот факт, что команда обнаружила, что участники исследования пользователей предпочитали ответы, данные ChatGPT, в 35% случаев. Исследователи также обнаружили, что одни и те же пользователи, читающие ответы ChatGPT, довольно часто не замечают допущенных ошибок — они пропускают неправильные ответы в 39% случаев.