Искусственный интеллект предсказывает расу пациентов по их медицинским изображениям

Неправильное обучение алгоритмам — серьезная проблема; когда искусственный интеллект отражает бессознательные мысли, расизм и предубеждения людей, создавших эти алгоритмы, это может нанести серьезный вред. Компьютерные программы, например, ошибочно помечают чернокожих подсудимых в два раза чаще, чем белых. Когда ИИ использовал стоимость в качестве косвенного показателя потребностей в области здравоохранения, он ошибочно называл чернокожих пациентов более здоровыми, чем столь же больные белые, поскольку на них тратилось меньше денег. Даже ИИ, который раньше писал пьесы, опирался на вредные стереотипы для кастинга.

Удаление конфиденциальных функций из данных кажется жизнеспособной настройкой. Но что происходит, когда этого недостаточно?

Примеры предвзятости в обработке естественного языка безграничны, но ученые Массачусетского технологического института исследовали еще одну важную, в значительной степени малоизученную модальность: медицинские изображения . Используя как частные, так и общедоступные наборы данных, команда обнаружила, что ИИ может точно предсказать расовую принадлежность пациентов, о которой они сообщают сами, только по медицинским изображениям. Используя данные рентгенографии грудной клетки, рентгенографии конечностей, компьютерной томографии грудной клетки и маммограммы, команда обучила модель глубокого обучения идентифицировать расу как белую, черную или азиатскую, хотя сами изображения не содержали явного упоминания о расе. раса пациента. Это подвиг, на который не способны даже самые опытные врачи, и неясно, как модель смогла это сделать.

В попытке разгадать и понять загадочное «как» все это исследователи провели множество экспериментов. Чтобы исследовать возможные механизмы определения расы, они рассмотрели такие переменные, как различия в анатомии, плотности костей., разрешение изображений и многое другое, и по-прежнему преобладали модели с высокой способностью определять расу по рентгенограммам грудной клетки. «Поначалу эти результаты сбивали с толку, потому что члены нашей исследовательской группы не смогли даже близко подобрать подходящее решение для этой задачи», — говорит соавтор статьи Марзие Гассеми, доцент кафедры электротехники и компьютерных наук Массачусетского технологического института. и Институт медицинской инженерии и науки (IMES), который является филиалом Лаборатории компьютерных наук и искусственного интеллекта (CSAIL) и клиники Джамиля Массачусетского технологического института. «Даже когда вы отфильтровываете медицинские изображения после того, как изображения вообще распознаются как медицинские изображения, глубокие модели сохраняют очень высокую производительность. Это вызывает беспокойство, потому что сверхчеловеческие способности, как правило, гораздо сложнее контролировать, регулировать,

В клинических условиях алгоритмы могут помочь нам сказать, является ли пациент кандидатом на химиотерапию, диктовать сортировку пациентов или решить, необходим ли перевод в отделение интенсивной терапии. «Мы думаем, что алгоритмы смотрят только на показатели жизнедеятельности или лабораторные тесты ., но вполне возможно, что они также смотрят на вашу расу, этническую принадлежность, пол, находитесь ли вы в заключении или нет — даже если вся эта информация скрыта», — говорит соавтор статьи Лео Энтони Чели, главный научный сотрудник IMES в Массачусетского технологического института и доцент медицины Гарвардской медицинской школы: «Тот факт, что в ваших алгоритмах представлены различные группы, не гарантирует, что они не увековечат или не усугубят существующие различия и неравенства. Скармливание алгоритмам большего количества данных с представлением не является панацеей. Этот документ должен заставить нас задуматься и серьезно задуматься о том, готовы ли мы использовать ИИ у постели больного».

Исследование «Распознавание ИИ расы пациентов в медицинских изображениях : исследование моделирования» было опубликовано в The Lancet Digital Health 11 мая. Сели и Гассеми написали статью вместе с 20 другими авторами из четырех стран.

Чтобы настроить тесты, ученые сначала показали, что модели могут предсказывать расу с помощью нескольких методов визуализации, различных наборов данных и разнообразных клинических задач, а также для ряда академических центров и групп пациентов в Соединенных Штатах. Они использовали три больших набора данных рентгенографии грудной клетки и протестировали модель на невидимом подмножестве набора данных, используемого для обучения модели, и на совершенно другом. Затем они обучили модели определения расовой идентичности рентгеновским изображениям, не относящимся к грудной клетке, из разных мест тела, включая цифровую рентгенографию, маммографию, боковые рентгенограммы шейного отдела позвоночника и КТ грудной клетки, чтобы увидеть, ограничивается ли производительность модели рентгенографией грудной клетки.

В попытке объяснить поведение модели команда рассмотрела множество основ: различия в физических характеристиках между различными расовыми группами (габитус телосложения, плотность груди), распространение болезней (предыдущие исследования показали, что у чернокожих пациентов чаще возникают проблемы со здоровьем, такие как болезни сердца ). ), различия в зависимости от местоположения или ткани, влияние социальных предубеждений и стресса окружающей среды, способность систем глубокого обучения определять расу при объединении нескольких демографических факторов и факторов пациента, а также если определенные области изображения способствовали распознаванию расы.

То, что получилось, было поистине ошеломляющим: способность моделей предсказывать расу только по диагностическим меткам была намного ниже, чем у моделей, основанных на рентгенографии грудной клетки.

Например, в тесте плотности кости использовались изображения, на которых более толстая часть кости казалась белой, а более тонкая часть казалась более серой или полупрозрачной. Ученые предположили, что, поскольку у чернокожих обычно выше минеральная плотность костей, различия в цвете помогли моделям ИИ определить расу. Чтобы избавиться от этого, они обрезали изображения фильтром, чтобы модель не различала цвета. Оказалось, что отключение подачи цвета не смутило модель — она по-прежнему могла точно предсказывать гонки. (Значение «Площади под кривой», означающее меру точности количественного диагностического теста, составляло 0,94–0,96). Таким образом, изученные функции модели, по-видимому, полагались на все области изображения, а это означает, что управление этим типом алгоритмического поведения представляет собой запутанную и сложную проблему.

Ученые признают ограниченную доступность ярлыков расовой идентичности, что заставило их сосредоточиться на азиатском, черном и белом населении, и что их основная правда была деталью, о которой они сообщали сами. Другая предстоящая работа будет включать потенциальное изучение изоляции различных сигналов перед реконструкцией изображения, потому что, как и в случае с экспериментами по плотности кости, они не могли объяснить остаточную костную ткань, которая была на изображениях.

Примечательно, что другая работа Гассеми и Чели под руководством студента Массачусетского технологического института Хаммада Адама показала, что модели также могут идентифицировать расовую принадлежность пациента, о которой сообщают сами пациенты, из клинических записей, даже если в этих записях отсутствуют явные признаки расы. Как и в этой работе, эксперты-люди не могут точно предсказать расу пациента на основании тех же отредактированных клинических записей.

«Мы должны привлечь к участию ученых-социологов. Экспертов в предметной области, которыми обычно являются клиницисты, специалисты в области общественного здравоохранения, специалисты по информатике и инженеры, недостаточно. Здравоохранение — это социально-культурная проблема в той же степени, что и медицинская. Нам нужна еще одна группа экспертов, чтобы взвесить и предоставить информацию и отзывы о том, как мы проектируем, разрабатываем, развертываем и оцениваем эти алгоритмы», — говорит Сели. «Мы также должны спросить специалистов по данным, прежде чем приступить к изучению данных, есть ли различия? Какие группы пациентов являются маргинализованными? Каковы причины этих различий? Является ли это доступом к медицинской помощи? Это связано с субъективностью поставщиков медицинских услуг? Если мы этого не поймем, у нас не будет шанса определить непреднамеренные последствия алгоритмов, и мы никак не сможем это сделать.

«Тот факт, что алгоритмы «видят» расу, как убедительно задокументировали авторы, может быть опасен. Но важный и связанный с этим факт заключается в том, что при осторожном использовании алгоритмы также могут работать для противодействия предвзятости», — говорит Зиад Обермейер, доцент Калифорнийский университет в Беркли, чьи исследования сосредоточены на применении ИИ в здравоохранении. «В нашей собственной работе, возглавляемой компьютерным специалистом Эммой Пирсон из Корнелла, мы показываем, что алгоритмы, которые учатся на опыте боли пациентов, могут находить новые источники боли в колене на рентгеновских снимках, которые непропорционально влияют на чернокожих пациентов — и непропорционально упускаются радиологами. Так что, как и любой инструмент, алгоритмы могут быть силой зла или силой добра — зависит от нас и от выбора, который мы делаем, когда создаем алгоритмы».