Разрабатывается техника визуализации для научных открытий

Исследователи из Сколтеха и AIRI, Исследовательского института искусственного интеллекта, разработали метод визуализации, который делает сложные биомедицинские, финансовые и другие наборы данных доступными для человека без ущерба для их многомерной структуры. Сохранение этой так называемой топологии данных имеет решающее значение для выводов о генах рака, поведении потребителей и многом другом. Однако существующие методы не годятся для этого. Исследование будет представлено в виде документа конференции на ICLR 2023 , и документ доступен на сервере препринтов arXiv .

Корпоративным аналитикам и ученым часто приходится разбираться в наборах данных , где каждый элемент характеризуется множеством так называемых измерений. Например, банк может оценивать каждого из своих клиентов по целому ряду показателей поведения. Биологи рассматривают различные клетки с точки зрения того, насколько активен в них каждый из большого числа генов. Данные о погоде также имеют такую природу из-за количества параметров, сообщаемых в каждый момент времени в каждом месте.

Тем не менее, люди не привыкли мыслить во многих измерениях, и без сведения набора данных к четкому двух- или трехмерному представлению может быть трудно выдвигать значимые гипотезы и распознавать важные закономерности.

«Визуализация делает данные интуитивно понятными, но не обязательно раскрывает их «форму». Набор данных может иметь крупномасштабную структуру — с кластерами, пустотами, петлями и т. д. — и мы хотим, чтобы все это также было в представлении с уменьшенной размерностью.Физикам это нужно для распознавания отдельных частиц в бесчисленном множестве метки детектора, исследователям рынка — для определения групп потребителей , климатологам — чтобы сказать, где начинается тот или иной процесс и где он заканчивается. В отличие от других методик, наша позволяет добиться снижения размерности без ущерба для глобальной структуры данных», — говорит соавтор Даниил Чернявский.

Существует ряд подходов к уменьшению размерности данных, некоторые из них используют так называемые автокодировщики. Это нейронные сети , которые создают низкоразмерные представления данных. «Проблема в том, что большинство используемых техник, в том числе с автоэнкодерами, работают локально. Они заботятся о положении точки данных относительно соседних точек, но при этом теряется крупномасштабная структура», — сказал Чернявский.

«Что мы сделали, так это дополнили автоэнкодер новой дополнительной функцией потерь. Ее единственная цель — минимизировать топологическое несоответствие между исходным набором данных и его низкоразмерным представлением. При нулевых потерях гарантируется «форма» визуализации. соответствовать оригиналу».

Команда проверила, в какой степени сохраняется топология набора данных, используя несколько показателей, которые отражают, насколько хорошо сохраняются относительные положения точек данных в целом, а не только тех, которые находятся в непосредственной близости. Тест, в котором участвовали наборы данных разного характера, подтвердил, что решение команды превзошло все самые популярные методы уменьшения размерности (см. изображение выше).

«Топологический анализ данных становится все более популярным инструментом для исследования свойств многомерных данных. Мы ожидаем, что разработанный нами метод и другие подобные подходы станут стандартом в ближайшем будущем», — соавтор исследования, профессор прикладного Сколтеха, профессор Евгений Бурнаев. сказали AI и AIRI.