Разрабатывается новый метод выявления сложных медицинских взаимосвязей

Прочитано: 87 раз(а)
1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (Оценок пока нет)
Loading ... Loading ...


Группа исследователей из Департамента по делам ветеранов, Окриджской национальной лаборатории, Гарвардской школы общественного здравоохранения им. Т. Х. Чана, Гарвардской медицинской школы и Бригама и женской больницы разработала новую методику, основанную на машинном обучении, для изучения и выявления взаимосвязей между медицинскими понятиями. использование данных электронных медицинских карт у нескольких поставщиков медицинских услуг.

Метод под названием «Извлечение знаний с помощью регрессии разреженного встраивания», или KESER, был недавно опубликован в npj Digital Medicine. Процесс объединяет данные электронных медицинских карт из двух крупных учреждений — VA и здравоохранения Partners из Бостона — и обеспечивает автоматический выбор признаков, который приводит к алгоритмам идентификации фенотипа и открытию знаний.

«KESER дает представление высокого уровня о взаимосвязях между клиническими знаниями, которые мы не всегда можем увидеть при уходе за пациентами на индивидуальном или групповом уровне», — сказала доктор Кэтрин Ляо, главный исследователь KESER в VA Boston и доцент. медицины в Гарвардской медицинской школе. «Мы с нетерпением ждем перевода методов и результатов исследования из приложений в клинических исследованиях в достижения в клинической помощи».

Проект является частью основной работы по феноменике, которой руководит доктор. Келли Чо и Майк Газиано из Бостона и Гарварда в рамках программы «Миллион ветеранов» штата Вирджиния, или MVP, «национальной исследовательской программы, направленной на изучение того, как гены, образ жизни и военное воздействие влияют на здоровье и болезни», согласно Управлению исследований и разработок штата Вирджиния. Сайт МВП.

В 2016 году ORNL начала сотрудничать с VA в рамках MVP-CHAMPION, инициативы по работе с большими данными в рамках программы MVP, чтобы создать большую платформу точной медицины для размещения обширного набора данных медицинских карт VA , состоящего из записей примерно 24 миллионов ветеранов. . Стремясь укрепить сквозные инновации в поддержку многочисленных исследовательских проектов в рамках этой совместной программы VA-DOE, ORNL тесно сотрудничала с MVP Data Core из VA Boston и Гарварда, чтобы определить конкретные области исследований, которые необходимо продолжить. Среди них была попытка ответить на вопрос: какие элементы нам нужно найти в электронных медицинских картах, чтобы правильно идентифицировать данный фенотип?


Работая с тем, что, по их мнению, является самой большой группой данных о здравоохранении, используемых для этого типа исследований в США, команда решила автоматизировать идентификацию фенотипических отношений, обеспечивая при этом прозрачность основных предположений машинного обучения и процессов принятия решений.

Для этого они разработали и построили четырехэтапную методологию KESER: преобразование данных в структурированный формат, построение низкоразмерного векторного представления каждого медицинского кода , выбор функций для атрибутирования важности и отображение атрибутивных отношений в виде сети.

Обработка данных и обучение представлению

ORNL сыграла ключевую роль в утомительной, но важной работе по обработке и структурированию различных медицинских данных — процедур пациентов, диагнозов и измерений, а также заметок врачей, информации о рецептах и ​​​​многого другого — от миллионов пациентов в системе здравоохранения VA and Partners. .

«Существует множество неструктурированных данных, которые обрабатываются, прежде чем вы получите структурированную информацию, которую можно использовать в статистических методах», — сказал Эдмон Беголи, глава отдела ORNL AI Systems и главный исследователь проекта MVP-CHAMPION. «Команда провела годы, работая над данными, чтобы привести их в состояние, когда мы могли бы начать использовать их для исследований».

С помощью обработанных данных команда построила матрицу совпадений, состоящую из более чем 100 000 типов событий или кодов медицинской помощи — по сути, массивную, но разреженную таблицу данных со строкой и столбцом для каждого возможного кода медицинской помощи. Каждое совпадение во времени двух событий помогает создать более четкую и подробную картину данного фенотипа.

Используя инфраструктуру больших данных ORNL и опыт научных вычислений, что очень важно при работе с данными такого масштаба, команда работала над автоматизацией предварительной обработки данных и обеспечением общедоступности процесса.

«Исследователь или учреждение могут загрузить код, сохранить свои данные в правильном формате, и наш процесс выполнит все шаги, необходимые для интеграции их данных со всеми остальными», — сказал Эверетт Раш, научный сотрудник ORNL и ведущий инженер данных в проекте.

На протяжении всего проекта исследовательская группа уделяла большое внимание защите конфиденциальности пациентов. Команда обработала все данные VA в защищенной инфраструктуре медицинских данных ORNL. Превратив его в анонимный сводной уровень, они поделились им с Гарвардом и другими сотрудниками. Полученная матрица KESER не сохраняет никаких связей с отдельными пациентами.

«Невозможно проследить конечные результаты до отдельного пациента, потому что это агрегаты», — сказал Даллас Сакка, старший инженер по решениям ORNL. Сакка управляет защищенным анклавом медицинских данных в ORNL и проверяет каждую часть данных, чтобы убедиться, что они соответствуют рекомендациям HIPAA по деидентификации, прежде чем позволить им покинуть анклав.

Извлечение знаний

Матрица полна анонимной информации об этой огромной группе пациентов, которых можно исследовать с помощью различных методов, таких как KESER, чтобы получить новое представление о здоровье человека. Используя ряд современных статистических методов, команда преобразовала сводные данные в векторы, настроила модель, которая кодирует родство каждого вектора, и извлекла наиболее важные признаки и веса признаков для каждого фенотипа.

«Эти статистические методы, включающие графические модели Гаусса для разреженного моделирования ковариационных структур, особенно подходят для определения важности, которая выявляет потенциальные причинно-следственные связи, концепция, с которой классические технологии ИИ, такие как глубокое обучение, имеют тенденцию бороться», — сказал Джордж. Остроухов, старший научный сотрудник ORNL и ведущий статистик проекта MVP-CHAMPION.

После запуска метода KESER команда выбрала для изучения восемь фенотипов , включая депрессию, ревматоидный артрит и язвенный колит. Используя особенности, выбранные KESER, они обучили модели идентифицировать интересующие фенотипы.

Будущие исследования

Возможности, предоставляемые новой способностью KESER анонимизировать, интегрировать и анализировать данные из нескольких медицинских учреждений, кажутся безграничными.

Тяньси Цай, профессор биомедицинской информатики Гарвардской медицинской школы и главный исследователь KESER, сказал: «Мы рады возможности масштабируемого подхода, который может обрабатывать матрицы на порядок больше, чем те, с которыми мы работаем сейчас».

Команда уже включает больше клинических дескрипторов в графы знаний. Кроме того, команда начала изучать графики знаний, чтобы лучше понять возникающие заболевания.

«Например, в такой ситуации, как COVID, когда всем необходимо обмениваться данными, и нам нужно начать расследование всех различных вещей, связанных с этим конкретным заболеванием, вы потенциально сможете сделать это с помощью этой системы», — сказал Чуан Хонг. , доцент Университета Дьюка, который руководил исследованием проекта KESER в качестве инструктора в Гарварде в прошлом году. «Это в основном plug-and-play: вы идете в хранилище данных, выполняете четырехэтапный процесс и напрямую интегрируете свои результаты».

Потенциал для будущего сотрудничества и открытий может быть самым большим успехом проекта. «Это новшество облегчит сотрудничество между несколькими центрами, — пишет команда в журнале Nature , — и приблизит область к обещанию создания распределенных сетей для обучения между учреждениями при сохранении конфиденциальности пациентов».

Разрабатывается новый метод выявления сложных медицинских взаимосвязей



Новости партнеров