Исследование показало, что использование баз данных изображений «не по прямому назначению» может привести к предвзятости в алгоритмах ИИ

Значительные достижения в области искусственного интеллекта (ИИ) за последнее десятилетие были основаны на интенсивном обучении алгоритмов с использованием массивных баз данных с открытым исходным кодом. Но когда такие наборы данных используются «не по прямому назначению» и применяются непреднамеренным образом, результаты подвержены предвзятости машинного обучения, что ставит под угрозу целостность алгоритма ИИ, согласно новому исследованию, проведенному исследователями из Калифорнийского университета в Беркли Техасский университет в Остине.

Выводы, опубликованные на этой неделе в Proceedings of the National Academy of Sciences , подчеркивают проблемы, возникающие, когда данные, опубликованные для одной задачи, используются для обучения алгоритмов для другой.

Исследователи заметили эту проблему, когда им не удалось воспроизвести многообещающие результаты исследования медицинской визуализации. «После нескольких месяцев работы мы поняли, что данные изображения, используемые в статье, были предварительно обработаны», — сказал главный исследователь исследования Майкл Лустиг, профессор электротехники и компьютерных наук Калифорнийского университета в Беркли. «Мы хотели привлечь внимание к проблеме, чтобы исследователи могли быть более осторожными и публиковать более реалистичные результаты».

Распространение бесплатных онлайн-баз данных с годами помогло поддержать разработку алгоритмов искусственного интеллекта в медицинской визуализации. В частности, для магнитно-резонансной томографии (МРТ) усовершенствования алгоритмов могут привести к более быстрому сканированию. Получение МР-изображения включает в себя получение необработанных измерений, которые кодируют представление изображения. Алгоритмы реконструкции изображений затем декодируют измерения для получения изображений, которые врачи используют для диагностики.

Некоторые наборы данных, такие как известный ImageNet, включают миллионы изображений. Наборы данных, включающие медицинские изображения, можно использовать для обучения алгоритмов ИИ, используемых для декодирования измерений, полученных при сканировании. Ведущий автор исследования Эфрат Шимрон, научный сотрудник лаборатории Люстига, сказал, что новые и неопытные исследователи ИИ могут не знать, что файлы в этих медицинских базах данных часто предварительно обработаны, а не необработаны.

Как известно многим цифровым фотографам, необработанные файлы изображений содержат больше данных, чем их сжатые аналоги, поэтому важно обучать алгоритмы ИИ на базе данных необработанных МРТ-измерений. Но таких баз данных мало, поэтому разработчики программного обеспечения иногда загружают базы данных с обработанными МР-изображениями, синтезируют из них, казалось бы, необработанные измерения, а затем используют их для разработки своих алгоритмов реконструкции изображений.

Исследователи придумали термин «преступления с неявными данными» для описания предвзятых результатов исследований, которые возникают, когда алгоритмы разрабатываются с использованием этой ошибочной методологии. «Легко совершить ошибку, потому что конвейеры обработки данных применяются кураторами данных до того, как данные будут сохранены в Интернете, и эти конвейеры не всегда описываются. Таким образом, не всегда ясно, какие изображения обрабатываются, а какие являются необработанными», — сказал он. Шимрон. «Это приводит к проблемному подходу смешивания и сопоставления при разработке алгоритмов ИИ».

Слишком хорошо, чтобы быть правдой

Чтобы продемонстрировать, как эта практика может привести к искажению результатов, Шимрон и ее коллеги применили три хорошо известных алгоритма реконструкции МРТ как к необработанным, так и к обработанным изображениям на основе набора данных fastMRI. Когда использовались обработанные данные, алгоритмы давали изображения, которые были на 48 % лучше — заметно четче и резче — чем изображения, полученные из необработанных данных.

«Проблема в том, что эти результаты были слишком хороши, чтобы быть правдой», — сказал Шимрон.

Другими соавторами исследования являются Джонатан Тамир, доцент кафедры электротехники и вычислительной техники Техасского университета в Остине, и Ке Ванг, доктор философии Калифорнийского университета в Беркли. студент в лаборатории Люстига. Исследователи провели дополнительные тесты, чтобы продемонстрировать влияние обработанных файлов изображений на алгоритмы реконструкции изображений.

Начав с необработанных файлов, исследователи обрабатывали изображения контролируемыми этапами, используя два общих конвейера обработки данных, которые затрагивают многие базы данных МРТ с открытым доступом: использование коммерческого программного обеспечения для сканеров и хранение данных со сжатием JPEG. Они обучили три алгоритма реконструкции изображений, используя эти наборы данных, а затем измерили точность восстановленных изображений в зависимости от объема обработки данных.

«Наши результаты показали, что все алгоритмы ведут себя одинаково: при применении к обработанным данным они создают изображения, которые выглядят хорошо, но отличаются от исходных, необработанных изображений», — сказал Шимрон. «Разница сильно коррелирует со степенью обработки данных».

«Слишком оптимистичные» результаты

Исследователи также изучили потенциальный риск использования предварительно обученных алгоритмов в клинической установке, взяв алгоритмы, предварительно обученные на обработанных данных, и применив их к необработанным данным реального мира.

«Результаты были поразительны, — сказал Шимрон. «Алгоритмы, которые были адаптированы для обработки данных, плохо работали, когда им приходилось обрабатывать необработанные данные».

По словам авторов исследования, изображения могут выглядеть превосходно, но они неточны. «В некоторых крайних случаях небольшие клинически важные детали, связанные с патологией, могут полностью отсутствовать», — сказал Шимрон.

Хотя алгоритмы могут сообщать о более четких изображениях и более быстром получении изображений, результаты не могут быть воспроизведены с клиническими или необработанными данными сканирования. Исследователи заявили, что эти «чрезмерно оптимистичные» результаты показывают риск применения необъективных алгоритмов в клинической практике.

«Никто не может предсказать, как эти методы будут работать в клинической практике , и это создает барьер для клинического внедрения», — сказал Тамир, получивший степень доктора философии. по электротехнике и компьютерным наукам в Калифорнийском университете в Беркли и был бывшим сотрудником лаборатории Люстига. «Это также затрудняет сравнение различных конкурирующих методов, потому что некоторые могут сообщать о производительности на основе клинических данных, а другие могут сообщать о производительности на обработанных данных».

Шимрон сказал, что раскрытие таких «преступлений с данными» важно, поскольку и промышленность, и академические круги быстро работают над разработкой новых методов искусственного интеллекта для медицинской визуализации. Она сказала, что кураторы данных могут помочь, предоставив на своем веб-сайте полное описание методов, используемых для обработки файлов в их наборе данных. Кроме того, исследование предлагает конкретные рекомендации, которые помогут исследователям МРТ планировать будущие исследования, не внося эти предубеждения в машинное обучение.