Машинное обучение бинарных систем может улучшить медицинские диагнозы, анализ финансовых рисков и многое другое

Подобно мыши, бегущей по лабиринту и принимающей решения «да» или «нет» на каждом перекрестке, исследователи разработали способ, с помощью которого машины быстро изучают все повороты сложной системы данных.

«Наш метод может помочь улучшить диагностику заболеваний мочевыводящих путей, визуализацию сердечных заболеваний и анализ финансовых рисков», — сообщил Абд-Аль-Рахман Рашид Аль-Момани из кампуса Авиационного университета Эмбри-Риддл в Прескотте, штат Аризона.

Исследование было принято для выпуска журнала Patterns от 11 ноября с Джи Сун и Эриком Боллтом из Центра сложных системных наук Университета Кларксона. Цель работы — более эффективно анализировать бинарные («булевы») данные.

«Мы можем видеть все вокруг нас как сеть объектов и переменных, которые взаимодействуют друг с другом», — сказал Аль Момани, доцент кафедры науки о данных и математики в Embry-Riddle. «Понимание этих взаимодействий может улучшить наши прогнозы и управление целым рядом сетей — от биологических и сетей регуляции генов до даже авиаперелетов».

Булевы значения или данные «да/нет» часто используются в области генетики, где состояния генов могут быть описаны как «включено» (с высокой экспрессией генов) или «выключено» (с небольшой экспрессией генов или без нее). объяснил. Изучение булевых функций и сетей на основе зашумленных данных наблюдений является ключом к расшифровке множества различных научных и инженерных проблем — от динамики растений-опылителей и выбора лекарств до оценки риска заболевания туберкулезом у человека.

Проблема, как объяснил Аль Момани, заключается в том, что стандартный метод изучения булевых сетей, называемый REVEAL (алгоритм обратного проектирования для интерференции архитектур генетических сетей ), объединяет множество различных источников информации. Таким образом, подход REVEAL увеличивает вычислительную сложность и затраты, и исследователям приходится подавлять шум, чтобы анализировать все данные. Кроме того, метод REVEAL не оптимален для решения задач количественной биологии, требующих выявления причинных факторов.

Чтобы быстрее отсеять неправильные ответы, АлМомани и его коллеги использовали метод, называемый булевой оптимальной причинно-следственной энтропией, который постепенно сужает количество правильных решений проблемы. Этот метод по сути превращает сложный диагностический процесс в дерево решений, в котором вопросы да/нет, такие как «Есть ли у пациента лихорадка? Тошнота? Боль в пояснице?» может помочь врачу поставить правильный диагноз.

АлМомани объяснил, что многие различные научные вопросы зависят от «булевой переменной, которая в основном равна нулю или единице. Произошло событие или не произошло. Пациент пройдет тест и получит положительный или отрицательный результат. результаты тестов, история болезни и исходы как булевы переменные».

Чтобы проверить свои идеи, исследователи получили полный набор из 958 возможных конфигураций доски в конце игры в крестики-нолики. Затем доска и различные игровые ходы были выражены в виде математических задач, чтобы предсказать, какой игрок выиграет.

Исследователи также проверили свой метод, используя набор данных из изображений спектроскопии сердца. Их система правильно ставила диагноз в 80% случаев.

Статья о шаблонах называется «Обучение логических сетей и функций на основе данных с помощью принципа оптимальной причинно-следственной энтропии (BoCSE)».