Почему поиск механизма обмена данными, сохраняющего конфиденциальность, терпит неудачу

Наша современная повседневная жизнь, от банковских операций до коммуникаций, зависит от данных, и мы постоянно заботимся о конфиденциальности. Теперь в новой статье EPFL, опубликованной в журнале Nature Computational Science, утверждается, что многие обещания, сделанные в отношении механизмов сохранения конфиденциальности, никогда не будут выполнены, и что нам нужно принять эти неотъемлемые ограничения и не гнаться за невозможным.

Инновации, основанные на данных, в виде персонализированной медицины, более качественных государственных услуг или, например, более экологичного и более эффективного промышленного производства, обещают принести огромную пользу людям и нашей планете, и широкий доступ к данным считается необходимым для обеспечения этого будущего. Тем не менее агрессивные методы сбора и анализа данных вызывают тревогу по поводу социальных ценностей и основных прав.

В результате, как расширить доступ к данным, сохраняя при этом конфиденциальность конфиденциальной личной информации , стало одной из самых распространенных проблем в раскрытии потенциала технологий, управляемых данными, и в новом документе Лаборатории инженерной безопасности и конфиденциальности EPFL (SPRING) в Школе компьютерных и коммуникационных наук утверждает, что обещание, что любое использование данных разрешимо как при хорошей полезности, так и при конфиденциальности, сродни погоне за радугой.

Руководитель лаборатории SPRING и соавтор статьи, доцент Кармела Тронкосо, говорит, что существует два традиционных подхода к сохранению конфиденциальности: «Существует путь использования криптографии, сохраняющей конфиденциальность, обработки данных в расшифрованном домене и получения результат. Но ограничением является необходимость разрабатывать очень целенаправленные алгоритмы, а не просто выполнять общие вычисления».

Проблема этого типа технологий сохранения конфиденциальности, утверждается в документе, заключается в том, что они не решают одну из ключевых проблем, наиболее важных для практиков: как обмениваться высококачественными данными индивидуального уровня таким образом, чтобы сохранить конфиденциальность, но позволить аналитики для извлечения полной ценности набора данных очень гибким способом.

Второй способ, который пытается решить эту проблему, — это анонимизация данных, то есть удаление имен, местоположений и почтовых индексов, но, как утверждает Тронкосо, часто проблема заключается в самих данных. «Есть известный пример Netflix, когда компания решила опубликовать наборы данных и провести публичный конкурс для создания лучших алгоритмов «рекомендаций». Она удалила имена клиентов, но когда исследователи сравнили рейтинги фильмов с другими платформами, где люди оценивают фильмы, они смогли для деанонимизации людей».

Совсем недавно синтетические данные появились как новый метод анонимизации, однако в документе предполагается, что, в отличие от обещаний, сделанных его сторонниками, он требует тех же компромиссов между конфиденциальностью и полезностью, что и традиционная анонимизация данных. «Как мы говорим в нашей статье, исследователи и практики должны принять неотъемлемый компромисс между высокой гибкостью использования данных и надежными гарантиями в отношении конфиденциальности», — сказала Тереза Стадлер, ассистент доктора в лаборатории SPRING и соавтор статьи.

«Это вполне может означать, что объем приложений, управляемых данными, необходимо сократить, а владельцам данных придется сделать явный выбор в отношении подхода к обмену данными, наиболее подходящего для их варианта использования», — продолжил Стадлер.

Еще одно ключевое сообщение статьи — идея более медленного и более контролируемого выпуска технологий. Сегодня сверхбыстрое развертывание является нормой с менталитетом «мы исправим это позже», если что-то пойдет не так, подход, который Тронкосо считает очень опасным: «Мы должны начать понимать, что существуют ограничения. продолжать эти данные бесплатно для всех, где нет конфиденциальности и с большим влиянием на демократию? Это как День сурка, мы говорили об этом в течение 20 лет, и то же самое сейчас происходит с машинным обучением. Мы внедряем алгоритмы , они необъективны и есть надежда, что потом их исправят. Но что, если их нельзя исправить?»

Тем не менее узкая функциональность и высокий уровень конфиденциальности не являются бизнес-моделью технологических гигантов, и Troncoso призывает всех нас более тщательно подумать о том, как они решают эту критическую проблему.

«Многое из того, что делают Google и Apple, — это, по сути, обеление своих вредных практик и закрытие рынка. Например, Apple не позволяет приложениям собирать информацию, но сама собирает данные так называемым способом «сохранения конфиденциальности», а затем продает их. Мы говорим о том, что не существует способа сохранения конфиденциальности. Вопрос в том, «предотвратила ли технология вред от системы или она просто сделала систему одинаково вредной»? Конфиденциальность сама по себе не является целью, конфиденциальность — это средства, с помощью которых можно защитить себя», — заключает Тронкосо.