Повышают конфиденциальность проприетарных шаблонов, обнаруженных при интеллектуальном анализе данных

Исследователи повысили конфиденциальность и защиту частной или другой конфиденциальной информации во время интеллектуального анализа данных, не ставя под угрозу способность обнаруживать полезные закономерности в огромных наборах данных.

Техника, разработанная парой ученых-компьютерщиков из Чунцинского университета, описана в статье, опубликованной в журнале Big Data Mining and Analytics.

Интеллектуальный анализ данных, обнаружение шаблонов в очень больших наборах данных (часто с использованием машинного обучения) и совместное использование этой информации в полезных целях часто сталкиваются с препятствиями, когда такие шаблоны данных являются собственностью, подрывают конфиденциальность или ставят под угрозу безопасность. И все же такое совместное использование или публикация данных способствует дальнейшему обнаружению полезных закономерностей, приносящих пользу владельцам этих наборов данных и обществу в целом.

Рассмотрим очень распространенный алгоритм интеллектуального анализа данных для обнаружения потенциально полезных отношений между переменными в больших наборах данных: интеллектуальный анализ правил ассоциации. Классический, возможно вымышленный, пример поиска ассоциативных правил касается большого набора данных о продажах в супермаркетах, где обнаруживается, что клиенты-мужчины, покупающие подгузники, также склонны покупать пиво. «Правило» здесь — ассоциация пива, подгузников и клиентов-мужчин. Основываясь на этом правиле, менеджер супермаркета может предложить пакет скидок для тех, кто покупает пиво и подгузники вместе.

Но если бы это «правило» было обнаружено конкурентами, использующими опубликованный набор данных, которым поделился супермаркет, чтобы улучшить дальнейшее обнаружение закономерностей, они могли бы переманить клиентов из первоначального супермаркета, предложив ту же стратегию скидок. Таким образом, правило «подгузники — значит пиво» является конфиденциальным с коммерческой точки зрения, и его необходимо защитить, прежде чем супермаркет сможет публиковать свои данные для использования другими.

Иными словами, если необходимо поощрять более широкий обмен данными, должен быть способ разрешить интеллектуальный анализ данных для неконфиденциальных правил ассоциации (NAR), защищая интеллектуальный анализ данных от обнаружения конфиденциальных правил ассоциации (SARS).

Чтобы решить проблему правила конфиденциальной ассоциации, исследователи в прошлом предлагали защищать конфиденциальную информацию , просто скрывая ее после обнаружения до любого обмена набором данных. Это достигается за счет уменьшения частоты появления любых данных в наборе данных, которые предполагают правило ассоциации. Однако это не очень практично, так как одновременно можно защитить только один такой SAR, и этот метод в любом случае не обеспечивает надежной конфиденциальности данных.

Другие исследователи пытались преобразовать проблему SAR в единственную задачу объективной оптимизации — поиск наилучшего решения по определенному критерию. Это повышает конфиденциальность данных, но снижает полезность набора данных. Другой подход включает шифрование данных перед выполнением любого анализа данных в наборе данных, но это может занять очень много времени, особенно при реализации на особенно больших наборах данных — тех самых, которые имеют больший потенциал для обнаружения интересующих закономерностей.

Таким образом, исследователи из Чунцина хотели найти решение, которое уменьшило бы вероятность утечки конфиденциальной информации, а также улучшило бы полезность данных, и сделать это, ограничив время, которое потребовалось бы для такой техники.

Их решение, которое они называют «оптимизированным подходом к санации для публикации извлекаемых данных» или просто SA-MDP, признает, что любое решение проблемы SAR должно найти приемлемый компромисс между полезностью данных и конфиденциальностью данных, а не решать только одну задачу. или другой самостоятельно. Это задача оптимизации с несколькими целями, а не задача оптимизации с одной целью, когда необходимо оптимизировать более одной цели. Хотя многие области, от логистики до инженерии, регулярно сталкиваются с такими проблемами, они по своей сути являются тернистыми. Путешественник, желающий найти самый дешевый билет на самолет в удобный день с самым удобным сиденьем, совершающий кратчайшее путешествие с наименьшим количеством остановок, сталкивается с многокритериальной задачей оптимизации. Проблема заключается в том, что не существует единого решения, которое одновременно оптимизирует каждую из этих целей; вместо этого может быть много, возможно, даже бесконечное количество оптимальных «кандидатных» решений, которые одинаково хороши.

Для SA-MDP исследователи разработали индивидуальный алгоритм «оптимизации роя частиц» (PSO), чтобы эффективно решить эту многокритериальную задачу оптимизации. Метод PSO, биологически вдохновленный алгоритм, был первоначально открыт в 1990-х годах исследователями, стремившимися смоделировать социальное поведение роящихся животных, таких как стаи птиц или косяки рыб. Но исследователи обнаружили, что их алгоритм на самом деле выполнял оптимизационные расчеты для решения проблем роя. В PSO большая группа возможных решений рассматривается как частицы, подобные птицам в стае в «пространстве поиска» — наборе, в котором ищет алгоритм. Перемещение этих частиц в пространстве поиска в соответствии с некоторыми основными математическими правилами, управляющими частицей.

Чтобы улучшить возможности исследования SA-MDP, в метод также вводится концепция разделения частиц, которая позволяет частице производить несколько «дочерних частиц».

А чтобы ускорить процесс, в методе используется новый механизм предварительной обработки, который удаляет любые нерелевантные транзакции, чтобы можно было уменьшить размер области поиска.

Разработав новый подход, исследователи затем протестировали его на нескольких общедоступных наборах данных, обычно используемых в таком тестировании — наборе шахматных движений, наборе данных атрибутов грибов, используемых для классификации их на съедобные или ядовитые, и серии кликов (последовательность нажатых ссылок) посетителей веб-сайтов. Они обнаружили, что их техника легко побеждает конкурентов.

«Наш метод обеспечивает такую же защиту конфиденциальности, как и стандартный подход для сокрытия конфиденциальных правил ассоциации, но с большей полезностью данных, при этом сокращая время работы», — сказал Сяофэн Ляо, ученый-компьютерщик из Университета Чунцина и соавтор статьи с его докторант Фан Ян.

Они сравнили эти результаты с результатами алгоритма оптимизации поиска с кукушкой для сокрытия конфиденциальных правил ассоциации, или COA4ARH, распространенного алгоритма, используемого для сокрытия конфиденциальных правил ассоциации (скрытия правил ассоциации) при интеллектуальном анализе данных.

Они обнаружили, что их подход обеспечивает тот же защитный эффект, что и способность COA4ARH скрывать конфиденциальные правила, и превосходит его по способности создавать полезные правила ассоциации, при этом вдвое сокращая время работы.