Машинное обучение радикально снижает нагрузку на подсчет клеток для диагностики заболеваний

Использование машинного обучения для подсчета клеток крови для диагностики заболеваний вместо дорогостоящих и часто менее точных анализаторов клеток, тем не менее, было очень трудоемким, поскольку при обучении машинного обучения людям требуется огромный объем ручной работы по аннотации. модель. Однако исследователи из Университета Бениханг разработали новый метод обучения, который автоматизирует большую часть этой деятельности.

Их новая схема обучения описана в статье, опубликованной в журнале Cyborg and Bionic Systems 9 апреля.

Количество и тип клеток в крови часто играют решающую роль в диагностике заболеваний, но методы клеточного анализа, обычно используемые для такого подсчета клеток крови, включая обнаружение и измерение физических и химических характеристик клеток, взвешенных в жидкости, дорого и требует сложной подготовки. Что еще хуже, точность машин для анализа клеток составляет всего около 90 процентов из-за различных факторов, таких как температура, pH, напряжение и магнитное поле, которые могут сбить оборудование с толку.

Чтобы повысить точность, уменьшить сложность и снизить затраты, многие исследования альтернатив в последнее время были сосредоточены на использовании компьютерных программ для выполнения «сегментации» на фотографиях крови, сделанных камерой высокого разрешения, подключенной к микроскопу. Сегментация включает в себя алгоритмы, которые выполняют попиксельную маркировку того, что появляется на фотографии, в данном случае, какие части изображения являются ячейками, а какие нет — по сути, подсчитывая количество ячеек в изображении.

Для изображений, на которых появляется только один тип клеток, такие методы достигают приличного уровня точности, но они плохо работают при сопоставлении изображений с несколькими типами клеток. Поэтому в последние годы, пытаясь решить эту проблему, исследователи обратились к сверточным нейронным сетям (CNN) — типу машинного обучения, который отражает структуру связей зрительной коры человека.

Чтобы CNN выполняла эту задачу, ее сначала нужно «обучить», чтобы понимать, что является клеткой, а что нет, на многих тысячах изображений клеток, которые люди пометили вручную. Затем, получив новое немаркированное изображение, он распознает и может подсчитать клетки в нем.

«Но такая ручная маркировка трудоемка и дорога, даже если она выполняется с помощью экспертов, — сказал Гуандун Чжан, соавтор статьи и профессор кафедры машиностроения и автоматизации в Университете Бэйхан, — что противоречит цели альтернативы, которая должна быть проще и дешевле, чем анализаторы клеток».

Поэтому исследователи из Университета Бэйхан разработали новую схему обучения CNN, в данном случае U-Net, модель сегментации полностью сверточной сети, которая широко используется в сегментации медицинских изображений с момента ее первой разработки в 2015 году.

В новой схеме обучения CNN сначала обучается на наборе из многих тысяч изображений только с одним типом клеток (взятых из крови мышей).

Эти одноклеточные изображения автоматически «предварительно обрабатываются» с помощью обычных алгоритмов, которые уменьшают шум в изображениях, улучшают их качество и обнаруживают контуры объектов на изображении. Затем они выполняют адаптивную сегментацию изображения. Этот последний алгоритм вычисляет различные уровни серого в черно-белом изображении, и если часть изображения выходит за определенный порог серого, алгоритм сегментирует ее как отдельный объект. Что делает этот процесс адаптивным, так это то, что он не сегментирует части сегментов изображения в соответствии с фиксированным порогом серого, а в соответствии с локальными особенностями изображения.

После того, как обучающий набор с одной ячейкой представлен модели U-Net, модель настраивается с использованием небольшого набора аннотированных вручную изображений нескольких типов ячеек. Для сравнения, сохраняется определенный объем ручных аннотаций, а количество изображений, которые должны быть помечены людьми, снижается с нескольких тысяч до 600.

Чтобы проверить свою схему обучения, исследователи сначала использовали традиционный анализатор клеток на тех же образцах крови мыши, чтобы провести независимый подсчет клеток, с которым они могли сравнить свой новый подход. Они обнаружили, что точность их схемы обучения при сегментации изображений с несколькими типами клеток составила 94,85%, что соответствует уровню, достигнутому при обучении с вручную аннотированными изображениями с несколькими типами клеток.

Этот метод также может быть применен к более продвинутым моделям для решения более сложных задач сегментации.

Поскольку новая методика обучения по-прежнему включает некоторый уровень ручной аннотации, исследователи надеются продолжить разработку полностью автоматического алгоритма аннотирования и обучения моделей.