Мощная техника машинного обучения позволяет биологам анализировать огромные массивы данных

Исследователи из A * STAR сравнили шесть процессов анализа данных и пришли к явному победителю с точки зрения скорости, качества анализа и надежности. Лучший исполнитель взял большие, сложные биологические наборы данных и выплеснул ключевые отношения между параметрами (такими как группировка клеток крови и костного мозга в соответствии с типом клеток) за долю времени других методов.

Измерения только на одной ячейке могут генерировать огромные наборы данных, которые имеют от 20 до более 20000 параметров. Ошеломляющий размер и сложность наборов биологических данных делают чрезвычайно трудным для ученых выявление значимых связей между параметрами.

Математики разработали статистические методы, которые упрощают сложные наборы данных, группируя данные по сходным характеристикам. Наиболее известным методом является анализ основных компонентов (PCA), который был разработан в начале двадцатого века. В последнее время были разработаны более мощные методы, которые используют возможности машинного обучения.

Теперь Эван Ньюэлл и Флоран Гинхоукс из Сингапурской иммунологической сети (SIgN) и их коллеги использовали одноклеточные данные для тестирования шести таких методов машинного обучения и обнаружили один, который отличается от остальных с точки зрения скорости и качества анализа. и надежность. Этот метод называется приближением и проекцией равномерного многообразия, или «UMAP».

«Когда Эван и Этьен Бехт в своей группе в SIgN начали тестировать UMAP, мы поняли, что он гораздо более мощный, чем все, что мы использовали раньше», — вспоминает Гинхоукс.

Анализ, который может занять несколько дней с использованием других методов, может быть выполнен за несколько часов с использованием UMAP, что позволит ученым исследовать большие наборы данных. «С помощью UMAP мы можем анализировать данные для двух или трех миллионов ячеек, в то время как мы обычно избегаем выходить за рамки 100 000 ячеек другими методами», — говорит Ньюэлл.

UMAP сгруппировал подобные ячейки наиболее интуитивно понятным способом, упрощая интерпретацию его результатов.

«Я думаю, что это действительно новаторский», говорит Ginhoux. «Исследователи, с которыми я встречаюсь на конференциях, уже начинают использовать его».

В более раннем исследовании группа продемонстрировала силу UMAP, используя его для обнаружения новой популяции клеток в крови. Ньюэлл отмечает, что UMAP очень универсален и может применяться к данным, сгенерированным в таких разных областях, как астрономия и кристаллография. «По сути, любые данные, которые могут быть выражены в матрицах, могут быть проанализированы UMAP», — говорит он.

В дополнение к использованию UMAP для ежедневного анализа данных , команда планирует продолжить работу с информатиками, чтобы адаптировать UMAP к их потребностям.