Общий подход к демистификации ИИ «черный ящик» не готов к прайм-тайму

Модели искусственного интеллекта, которые интерпретируют медицинские изображения, обещают повысить способность клиницистов ставить точные и своевременные диагнозы, а также уменьшить рабочую нагрузку, позволяя занятым врачам сосредоточиться на критических случаях и делегировать механические задачи ИИ.

Но модели ИИ, которым не хватает прозрачности в отношении того, как и почему ставится диагноз, могут быть проблематичными. Это непрозрачное рассуждение — также известное как «черный ящик» ИИ — может уменьшить доверие клинициста к надежности инструмента ИИ и, таким образом, препятствовать его использованию. Это отсутствие прозрачности также может ввести клиницистов в заблуждение, заставив их чрезмерно доверять интерпретации инструмента.

В области медицинской визуализации одним из способов создания более понятных моделей ИИ и демистификации процесса принятия решений ИИ была оценка значимости — подход, использующий тепловые карты, чтобы точно определить, правильно ли инструмент фокусируется только на соответствующих частях данного изображения. или нацеливаться на нерелевантные его части.

Тепловые карты работают, выделяя области на изображении, которые повлияли на интерпретацию модели ИИ. Это может помочь врачам-людям увидеть, фокусируется ли модель ИИ на тех же областях, что и они, или по ошибке фокусируется на нерелевантных участках изображения.

Но новое исследование, опубликованное в журнале Nature Machine Intelligence 10 октября, показывает, что, несмотря на все свои обещания, тепловые карты заметности могут быть еще не готовы к использованию в прайм-тайм.

Анализ, проведенный исследователем Гарвардской медицинской школы Пранавом Раджпуркаром, Мэтью Лунгреном из Стэнфорда и Адриэлем Сапортой из Нью-Йоркского университета, количественно оценил достоверность семи широко используемых методов значимости, чтобы определить, насколько надежно и точно они могут идентифицировать патологии, связанные с 10 часто диагностируемыми состояниями. на рентгенограммах, такие как поражения легких, плевральный выпот , отек или увеличение структур сердца. Чтобы установить производительность, исследователи сравнили производительность инструментов с экспертными оценками человека.

В конечном счете, инструменты, использующие тепловые карты на основе заметности, постоянно уступали в оценке изображений и в их способности обнаруживать патологические поражения по сравнению с рентгенологами-людьми.

Работа представляет собой первый сравнительный анализ между картами заметности и эффективностью человека-эксперта при оценке множественных рентгенологических патологий. Исследование также предлагает детальное понимание того, могут ли и как определенные патологические характеристики изображения влиять на производительность инструмента ИИ.

Функция карты заметности уже используется в качестве инструмента обеспечения качества в клинических практиках , которые используют ИИ для интерпретации компьютерных методов обнаружения, таких как чтение рентгенографии грудной клетки. Но в свете новых результатов эту функцию следует применять с осторожностью и со здоровой долей скептицизма, считают исследователи.

«Наш анализ показывает, что карты значимости еще недостаточно надежны, чтобы подтверждать отдельные клинические решения, принимаемые моделью ИИ», — сказал Раджпуркар, доцент кафедры биомедицинской информатики в HMS. «Мы определили важные ограничения, которые вызывают серьезные проблемы с безопасностью при использовании в текущей практике».

Исследователи предупреждают, что из-за важных ограничений, выявленных в исследовании, тепловые карты на основе заметности должны быть дополнительно уточнены, прежде чем они будут широко применяться в клинических моделях ИИ.

Полная кодовая база, данные и анализ команды открыты и доступны для всех, кто заинтересован в изучении этого важного аспекта клинического машинного обучения в приложениях для обработки медицинских изображений.