Использование искусственного интеллекта для исправления ошибок в анализах отдельных клеток

Современная технология позволяет секвенировать отдельные клетки и определять, какие гены в настоящее время экспрессируются в каждой клетке. Эти методы чувствительны и, следовательно, подвержены ошибкам. Устройства, окружающая среда и сама биология могут быть ответственны за сбои и различия между измерениями. Исследователи из Helmholtz Zentrum München объединили свои усилия с коллегами из Технического университета Мюнхена (TUM) и Британского института Wellcome Sanger и разработали алгоритмы, позволяющие прогнозировать и исправлять такие источники ошибок. Работа была опубликована в журнале Nature Methods and Nature Communications.

Призрачный проект огромного масштаба, Атлас Клеток Человека, стремится наметить все ткани человеческого тела в различные моменты времени с целью создания справочной базы данных для развития персонализированной медицины, то есть способности отличать здоровые клетки от больных. , Это стало возможным благодаря технологии, известной как одноклеточныйСеквенирование РНК, которое помогает исследователям точно понять, какие гены включены или выключены в любой данный момент в этих крошечных компонентах жизни. «С методологической точки зрения это представляет собой огромный шаг вперед. Ранее такие данные можно было получить только из больших групп клеток, потому что измерения требовали так много РНК», — объясняет Марен Бюттнер. «Таким образом, результаты всегда были только средними значениями для всех используемых ячеек. Теперь мы можем получить точные данные для каждой отдельной ячейки», — говорит докторант Института вычислительной биологии (ICB) Гельмгольца Центрального Мюнхена.

Однако повышенная чувствительность метода также означает повышенную восприимчивость к эффекту партии. «Пакетный эффект описывает колебания между измерениями, которые могут возникнуть, например, если температура устройства отклоняется даже незначительно или время обработки ячеек изменяется», объясняет Марен Бюттнер. Хотя существует несколько моделей для коррекции этих отклонений, эти методы сильно зависят от фактической величины эффекта. «Поэтому мы разработали удобную, надежную и чувствительную меру, называемую kBET, которая количественно определяет различия между экспериментами и, следовательно, облегчает сравнение различных результатов коррекции», — говорит Бюттнер.

Помимо пакетного эффекта, явление, известное как выпадение событий, представляет собой серьезную проблему в секвенировании отдельных клеток. «Допустим, мы секвенируем клетку и наблюдаем, что определенный ген в клетке вообще не излучает никакого сигнала», — объясняет доктор Фабиан Тейс, директор ICB и профессор математического моделирования биологических систем в TUM. «Основная причина этого может иметь биологическую или техническую природу: либо ген не читается секвенсором, потому что он просто не экспрессируется, либо он не был обнаружен по техническим причинам», — объясняет он.

Чтобы распознать эти случаи, биоинформатики Гёкчен Эраслан и Лукас Симон из группы Тейса использовали большое количество последовательностей из множества отдельных клеток и разработали так называемый алгоритм глубокого обучения , то есть искусственный интеллект, который имитирует процессы обучения, происходящие у людей (нейронные сети).

Опираясь на новую вероятностную модель и сравнивая исходные и восстановленные данные, алгоритм определяет, является ли отсутствие сигнала гена следствием биологического или технического сбоя. «Эта модель даже позволяет определять коррекции для конкретных типов клеток без искусственного сходства двух разных типов клеток», — говорит Фабиан Тейс. «Являясь одним из первых методов глубокого обучения в области одноклеточной геномики, алгоритм имеет дополнительное преимущество, заключающееся в том, что он хорошо масштабируется для обработки наборов данных, содержащих миллионы клеток».

Но есть одна вещь, которой нет в методе, и это важно подчеркнуть: «Мы не разрабатываем программное обеспечение для сглаживания результатов. Наша главная цель — выявлять и исправлять ошибки», — объясняет Фабиан Тейс. «Мы можем делиться этими данными, которые являются максимально точными, с нашими коллегами по всему миру и сравнивать наши результаты с их результатами» — например, когда исследователи Гельмгольца представляют свои алгоритмы и анализы для Атласа клеток человека, потому что надежность и сопоставимость данных имеет первостепенное значение.