Конфиденциальность данных имеет свою цену. Существуют методы безопасности, которые защищают конфиденциальные пользовательские данные, такие как адреса клиентов, от злоумышленников, которые могут попытаться извлечь их из моделей ИИ, но они часто делают эти модели менее точными.
Недавно исследователи Массачусетского технологического института разработали структуру, основанную на метрике конфиденциальности, называемой PAC Privacy. , который может поддерживать производительность модели ИИ, гарантируя, что конфиденциальные данные, такие как медицинские изображения или финансовые записи, останутся в безопасности от злоумышленников. Теперь они продвинулись в этой работе на шаг дальше, сделав свою технику более вычислительно эффективной, улучшив компромисс между точностью и конфиденциальностью и создав формальный шаблон, который можно использовать для приватизации практически любого алгоритма без необходимости доступа к внутренним механизмам этого алгоритма.
Команда использовала новую версию PAC Privacy для приватизации нескольких классических алгоритмов анализа данных. и задач машинного обучения.
Они также продемонстрировали, что более «стабильные» алгоритмы легче приватизировать с помощью их метода. Прогнозы стабильного алгоритма остаются последовательными, даже когда его обучающие данные немного изменены. Большая стабильность помогает алгоритму делать более точные прогнозы на ранее невиданных данных.
Исследователи утверждают, что возросшая эффективность новой структуры конфиденциальности PAC и четырехшаговый шаблон, которому можно следовать для ее внедрения, упростят развертывание этой технологии в реальных ситуациях.
«Мы склонны считать надежность и конфиденциальность не связанными с созданием высокопроизводительного алгоритма или, возможно, даже противоречащими ему. Сначала мы создаем работающий алгоритм, затем делаем его надежным, а затем конфиденциальным. Мы показали, что это не всегда правильная постановка вопроса. Если вы заставите свой алгоритм работать лучше в различных условиях, вы, по сути, можете получить конфиденциальность бесплатно», — говорит Маюри Шридхар, аспирант Массачусетского технологического института и ведущий автор статьи об этой структуре конфиденциальности.
К ней в работе присоединяются доктор наук Ханьшэнь Сяо, который осенью начнет работу в качестве доцента в Университете Пердью; и старший автор Шрини Девадас, профессор электротехники Эдвина Сибли Вебстера. Исследование будет представлено на симпозиуме IEEE по безопасности и конфиденциальности.
Оценка шума
Чтобы защитить конфиденциальные данные , которые использовались для обучения модели ИИ, инженеры часто добавляют шум или общую случайность в модель, чтобы противнику было сложнее угадать исходные данные обучения. Этот шум снижает точность модели, поэтому чем меньше шума можно добавить, тем лучше.
PAC Privacy автоматически оценивает наименьшее количество шума, которое необходимо добавить в алгоритм для достижения желаемого уровня конфиденциальности.
Оригинальный алгоритм PAC Privacy многократно запускает модель ИИ пользователя на разных образцах набора данных. Он измеряет дисперсию, а также корреляции между этими многочисленными выходами и использует эту информацию для оценки того, сколько шума необходимо добавить для защиты данных.
Этот новый вариант PAC Privacy работает таким же образом, но ему не нужно представлять всю матрицу корреляций данных на выходах; ему нужны только выходные дисперсии.
«Поскольку то, что вы оцениваете, намного, намного меньше, чем вся ковариационная матрица, вы можете сделать это намного, намного быстрее», — объясняет Шридхар. Это означает, что можно масштабировать до гораздо больших наборов данных.
Добавление шума может повредить полезности результатов, и важно минимизировать потерю полезности. Из-за вычислительных затрат исходный алгоритм конфиденциальности PAC был ограничен добавлением изотропного шума, который добавляется равномерно во всех направлениях. Поскольку новый вариант оценивает анизотропный шум, который адаптирован к определенным характеристикам обучающих данных, пользователь может добавить меньше общего шума для достижения того же уровня конфиденциальности, повышая точность приватизированного алгоритма.
Конфиденциальность и стабильность
Изучая PAC Privacy, Шридхар предположила, что более стабильные алгоритмы будет легче приватизировать с помощью этой техники. Она использовала более эффективный вариант PAC Privacy, чтобы проверить эту теорию на нескольких классических алгоритмах.
Более стабильные алгоритмы имеют меньшую дисперсию в своих выходных данных, когда их обучающие данные немного изменяются. PAC Privacy разбивает набор данных на части, запускает алгоритм на каждой части данных и измеряет дисперсию между выходными данными. Чем больше дисперсия, тем больше шума необходимо добавить, чтобы приватизировать алгоритм.
Она поясняет, что использование методов обеспечения стабильности для уменьшения дисперсии в выходных данных алгоритма также уменьшит количество шума, которое необходимо добавить для его приватизации.
«В лучшем случае мы можем получить беспроигрышные сценарии», — говорит она.
Команда показала, что эти гарантии конфиденциальности остаются сильными, несмотря на протестированный ими алгоритм, и что новый вариант PAC Privacy требует на порядок меньше попыток для оценки шума. Они также протестировали метод в симуляциях атак, продемонстрировав, что его гарантии конфиденциальности могут выдерживать самые современные атаки.
«Мы хотим изучить, как алгоритмы могут быть разработаны совместно с PAC Privacy, чтобы алгоритм был более стабильным, безопасным и надежным с самого начала», — говорит Девадас. Исследователи также хотят протестировать свой метод с более сложными алгоритмами и дополнительно изучить компромисс между конфиденциальностью и полезностью.
«Теперь вопрос в том, когда возникают эти беспроигрышные ситуации и как мы можем сделать так, чтобы они случались чаще?» — говорит Шридхар.