GPT-4 со зрением имеет низкую точность при ответах на вопросы по радиологии на основе изображений

Согласно исследованию, опубликованному 3 сентября в журнале Radiology, большая языковая модель GPT-4 со зрением (GPT-4V) демонстрирует высокую точность для текстовых вопросов по радиологии, но гораздо более низкую точность для вопросов, основанных на изображениях.

Нолан Хейден, доктор медицины из Henry Ford Health в Детройте, и его коллеги изучили эффективность GPT-4V на вопросах экзамена по радиологии для оценки базовых знаний модели в области радиологии. Выпуск GPT-4V в сентябре 2023 года оценивался с использованием 386 устаревших вопросов (189 на основе изображений и 197 на основе текста) из экзаменов Американского колледжа радиологии по диагностической радиологии; 377 вопросов были уникальными.

Исследователи обнаружили, что GPT-4V ответил правильно на 65,3 процента уникальных вопросов, при этом значительно более высокая точность наблюдалась на текстовых вопросах по сравнению с вопросами на основе изображений (81,5 против 47,8 процента). Для текстовых вопросов были замечены различия между подсказками, при этом подсказки с цепочкой мыслей превзошли длинные инструкции, базовые подсказки и оригинальный стиль подсказок на 6,1, 6,8 и 8,9 процента соответственно. Для вопросов на основе изображений не было замечено никаких различий между подсказками.

«Мы обнаружили, что хотя GPT-4V показывает относительно хорошие результаты в текстовых вопросах, она демонстрирует дефицит в точной интерпретации ключевых радиологических изображений. Это подчеркивает ограничения модели в визуальном рентгенологическом анализе », — пишут авторы. «Мы также отметили тревожную тенденцию GPT-4V ставить правильные диагнозы на основе неправильных интерпретаций изображений, что может иметь существенные клинические последствия».