Дифференциальная конфиденциальность — правильный выбор для переписи населения США 2020 года

Прочитано: 76 раз(а)


Бюро переписи населения США уже давно пытается сбалансировать точность и конфиденциальность своих десятилетних данных переписи. Случаи использования с высокой отдачей, такие как распределение финансирования и перераспределение округов, делают точность этих данных особенно важной. С другой стороны, конфиденциальность данных переписи не только требуется по закону, но также важна для защиты уязвимых групп населения и обеспечения высокого уровня ответов. Из-за серьезного беспокойства о конфиденциальности в связи с его предыдущим методом деидентификации, подменой, Бюро переписи недавно перешло на более новый метод: дифференциальная конфиденциальность.

Проще говоря, дифференциальная конфиденциальность (DP) — это математическая концепция, которая обеспечивает конфиденциальность личной информации людей путем внесения в данные «шума» — небольших случайных изменений. Были высказаны опасения, что этот шум искусственно занизит зарегистрированные группы меньшинств , что приведет к потере финансирования. Группа исследователей из отдела компьютерных наук Columbia Engineering решила изучить эти утверждения, задав вопрос: является ли этот риск характерным для DP? Они провели как теоретический, так и эмпирический анализ, сравнивая алгоритмы DP с алгоритмами подкачки.

Новое исследование поддерживает переход на дифференциальную конфиденциальность

Их результаты , которые будут представлены 23 мая 2022 года на симпозиуме IEEE по безопасности и конфиденциальности в Сан-Франциско , поддерживают переход Бюро переписи населения на дифференциальную конфиденциальность в качестве механизма деидентификации для переписи 2020 года и показывают, что обмен дает низкую точность. для групп меньшинств. Кроме того, обмен ложится непропорциональным бременем на конфиденциальность групп меньшинств, в то время как DP обеспечивает более надежную гарантию конфиденциальности.

«Чем больше мы сможем понять о влиянии процедур предотвращения разглашения на данные, тем лучше», — сказала Дана Бойд, партнер-исследователь Microsoft Research и основатель Data & Society, которая не участвовала в исследовании. «Это новое исследование раскрывает важную информацию о том, как различные механизмы по-разному влияют на уязвимые сообщества. Наша страна зависит от данных для распределения ресурсов и представительства. Ставки высоки. Этот документ помогает нам увидеть технические проблемы производства высококачественных данных без риска. неприкосновенность частной жизни людей»,

Исследование возникло в классе по анонимности и конфиденциальности

Исследование выросло из проекта весеннего курса 21 года по анонимности и конфиденциальности, который вели профессора Стивен Белловин, соавтор статьи, и Алекс Абдо из Колумбийского института Найта. «У нас было несколько интересных проектов в этом классе, и этот мне очень понравился», — сказал Белловин, профессор компьютерных наук имени Перси К. и Виды Л. В. Хадсон и аффилированный факультет Колумбийского юридического факультета. «Насколько нам известно, мы первые, кто напрямую сравнил эффекты обмена с эффектами DP на недостаточное представительство меньшинств в широком диапазоне настроек параметров».

Миранда Крист, доктор философии. студентка и Сара Рэдуэй, старшая в классе, изначально были обеспокоены такими статьями, как статья в New York Times, в которой обсуждалась неточность данных переписи из-за шума, добавленного DP. Когда Сара и Миранда поняли, что данные переписи включали шум в течение многих лет из-за предыдущих методов предотвращения раскрытия информации, таких как обмен, они были удивлены, обнаружив отсутствие исследований, сравнивающих относительную неточность обмена и DP. В своем проекте они стремились определить, как сравниваются два метода конфиденциальности с точки зрения точности и конфиденциальности. При поддержке Белловина они решили выйти за рамки классного проекта, проконсультировавшись с экспертами в этой области, такими как Рэйчел Каммингс, доцент кафедры промышленной инженерии и исследования операций в Columbia Engineering.

«Всегда здорово, когда академические исследования касаются реального мира », — сказал Рэдвей, ныне доктор философии. студент Сьюзан Ландау, профессора кибербезопасности и политики в Университете Тафтса. «Это серьезное противоречие — был даже иск в федеральном суде. Мы показали, что суждения Бюро переписи населения были правильными, и что они приняли правильное решение ».

Христос, доктор философии. Студент Колумбийского университета, консультируемый профессорами компьютерных наук Талом Малкиным и Михалисом Яннакакисом, добавил: «Это исследование особенно важно сейчас, когда Бюро переписи населения начинает модернизировать свои методы предотвращения раскрытия информации для других своих исследований, таких как Исследование американского сообщества. также поможет принять аналогичные решения в других подобных условиях».

Подкачанные данные более неточны для меньшинств — в отличие от дифференциальной конфиденциальности.

Исследователи продемонстрировали, что неточность, добавляемая заменой, более вредна, чем неточность DP. В частности, они показали, что когда подкачка осуществляется с достаточной конфиденциальностью, ее точность не лучше, а часто намного хуже, чем точность дифференциальной конфиденциальности. Подкачанные данные более неточны для более разнообразных округов и еще более неточны для меньшинств — это не относится к дифференциальной конфиденциальности. Исследование также показывает, что группы меньшинств подвергаются более высокому риску идентификации в обменных данных.

Дифференциальная конфиденциальность — правильный выбор для переписи населения США 2020 года



Новости партнеров