Новый тест оценивает навыки общения врачей с искусственным интеллектом

Прочитано: 78 раз(а)


Инструменты искусственного интеллекта, такие как ChatGPT, рекламируются как способные облегчить работу врачей за счет сортировки пациентов, сбора историй болезни и даже предоставления предварительных диагнозов.

Эти инструменты, известные как большие языковые модели, уже используются пациентами для осмысления своих симптомов и результатов медицинских анализов .

Но хотя эти модели ИИ демонстрируют впечатляющие результаты в стандартизированных медицинских тестах, насколько хорошо они справляются с ситуациями, которые более точно имитируют реальный мир?

Не все так уж и хорошо, согласно результатам нового исследования, проведенного учеными Гарвардской медицинской школы и Стэнфордского университета.

Для своего анализа, опубликованного 2 января в журнале Nature Medicine, исследователи разработали оценочную структуру — или тест — под названием CRAFT-MD (система оценки разговорного мышления для тестирования в медицине) и применили ее к четырем большим языковым моделям, чтобы увидеть, насколько хорошо они работают в условиях, максимально приближенных к реальному взаимодействию с пациентами.

Все четыре модели с большим языком хорошо справились с вопросами в стиле медицинского экзамена, но их результаты ухудшились, когда они включились в разговоры, более точно имитирующие взаимодействие в реальном мире.

По словам исследователей, этот разрыв подчеркивает двойную потребность: во-первых, в создании более реалистичных оценок, которые лучше измеряют пригодность клинических моделей ИИ для использования в реальном мире, и, во-вторых, в улучшении способности этих инструментов ставить диагнозы на основе более реалистичных взаимодействий до их внедрения в клинику.

По словам исследовательской группы, инструменты оценки, такие как CRAFT-MD, могут не только более точно оценивать модели ИИ для их пригодности в реальных условиях, но и могут помочь оптимизировать их работу в клинических условиях.

«Наша работа выявила поразительный парадокс: хотя эти модели ИИ отлично справляются с экзаменами на медицинское обследование, им трудно справиться с элементарными процедурами визита к врачу», — сказал старший автор исследования Пранав Раджпуркар, доцент кафедры биомедицинской информатики Гарвардской медицинской школы.

«Динамическая природа медицинских бесед — необходимость задавать правильные вопросы в правильное время, собирать воедино разрозненную информацию и рассуждать о симптомах — создает уникальные проблемы, которые выходят далеко за рамки ответов на вопросы с несколькими вариантами ответов. Когда мы переходим от стандартизированных тестов к этим естественным беседам, даже самые сложные модели ИИ демонстрируют значительное снижение точности диагностики».

Лучший тест для проверки реальной производительности ИИ

Сейчас разработчики проверяют производительность моделей ИИ, предлагая им ответить на медицинские вопросы с несколькими вариантами ответов, которые обычно берутся из национального экзамена для выпускников медицинских вузов или из тестов, которые проходят врачи-ординаторы в рамках их сертификации.

«Этот подход предполагает, что вся необходимая информация представлена ​​четко и кратко, часто с использованием медицинской терминологии или модных словечек, которые упрощают процесс диагностики, но в реальном мире этот процесс гораздо более запутан», — говорит соавтор первого исследования Шрея Джохри, докторант лаборатории Раджпуркара Гарвардской медицинской школы.

«Нам нужна система тестирования, которая лучше отражает реальность и, следовательно, лучше прогнозирует, насколько хорошо будет работать модель».

CRAFT-MD был разработан как один из таких более реалистичных приборов.

Для имитации реальных взаимодействий CRAFT-MD оценивает, насколько хорошо модели с большим языком могут собирать информацию о симптомах, лекарствах и семейном анамнезе, а затем ставить диагноз. Агент ИИ используется для представления себя в качестве пациента, отвечая на вопросы в разговорном, естественном стиле.

Другой агент ИИ оценивает точность окончательного диагноза, поставленного большой языковой моделью. Затем эксперты-люди оценивают результаты каждого контакта на предмет способности собирать релевантную информацию о пациенте, диагностической точности при представлении разрозненной информации и соблюдения подсказок.

Исследователи использовали CRAFT-MD для тестирования четырех моделей ИИ — как фирменных, так и коммерческих и с открытым исходным кодом — на предмет их эффективности в 2000 клинических ситуациях, описывающих состояния, распространенные в первичной медико-санитарной помощи и в 12 медицинских специальностях.

Все модели ИИ продемонстрировали ограничения, особенно в их способности вести клинические беседы и рассуждать на основе информации, предоставленной пациентами. Это, в свою очередь, поставило под угрозу их способность собирать истории болезни и ставить соответствующие диагнозы. Например, модели часто испытывали трудности с тем, чтобы задавать правильные вопросы для сбора соответствующей истории болезни пациента, упускали важную информацию во время сбора истории болезни и испытывали трудности с синтезом разрозненной информации.

Точность этих моделей снижалась, когда им предоставлялась открытая информация, а не ответы с несколькими вариантами ответов. Эти модели также работали хуже, когда они участвовали в обмене мнениями — как и большинство реальных разговоров — а не в обобщенных разговорах.

Рекомендации по оптимизации реальной производительности ИИ

На основании этих результатов группа предлагает набор рекомендаций как для разработчиков ИИ, которые проектируют модели ИИ, так и для регулирующих органов, отвечающих за оценку и одобрение этих инструментов.

К ним относятся:

  • Использование разговорных открытых вопросов, которые более точно отражают неструктурированное взаимодействие врача и пациента при разработке, обучении и тестировании инструментов ИИ.
  • Оценка моделей на предмет их способности задавать правильные вопросы и извлекать наиболее важную информацию
  • Разработка моделей, способных отслеживать несколько разговоров и интегрировать информацию из них
  • Разработка моделей ИИ, способных интегрировать текстовые (заметки из разговоров) и нетекстовые данные (изображения, ЭКГ)
  • Разработка более сложных агентов ИИ, которые могут интерпретировать невербальные сигналы, такие как выражение лица, тон и язык тела.

Кроме того, исследователи рекомендуют, чтобы оценка включала как агентов ИИ, так и экспертов-людей, поскольку полагаться исключительно на экспертов-людей трудоемко и дорого. Например, CRAFT-MD превзошел оценщиков-людей, обработав 10 000 разговоров за 48–72 часа, плюс 15–16 часов экспертной оценки.

Напротив, подходы, основанные на людях, потребуют обширного набора и приблизительно 500 часов для моделирования пациентов (почти три минуты на разговор) и около 650 часов для экспертных оценок (почти четыре минуты на разговор ). Использование оценщиков ИИ в качестве первой линии имеет дополнительное преимущество, поскольку исключает риск подвергания реальных пациентов непроверенным инструментам ИИ.

Исследователи заявили, что ожидают, что CRAFT-MD также будет периодически обновляться и оптимизироваться для интеграции усовершенствованных моделей искусственного интеллекта пациента.

«Как ученый-врач, я заинтересована в моделях ИИ, которые могут эффективно и этично дополнить клиническую практику», — сказала соавтор исследования Роксана Данешджоу, доцент кафедры биомедицинских данных и дерматологии Стэнфордского университета.

«CRAFT-MD создает структуру, которая более точно отражает взаимодействие в реальном мире, и, таким образом, помогает продвинуться вперед в области тестирования эффективности моделей ИИ в здравоохранении».

Новый тест оценивает навыки общения врачей с искусственным интеллектом



Новости партнеров