Найден более быстрый способ сохранить конфиденциальность в Интернете

Поиск в Интернете может раскрыть информацию, которую пользователь предпочел бы сохранить в тайне. Например, когда кто-то ищет медицинские симптомы в Интернете, он может сообщить о своем состоянии здоровья Google, медицинской онлайн-базе данных, такой как WebMD, и, возможно, сотням рекламодателей и деловых партнеров этих компаний.

В течение десятилетий исследователи разрабатывали методы, которые позволяют пользователям искать и извлекать информацию из базы данных в частном порядке, но эти методы остаются слишком медленными, чтобы их можно было эффективно использовать на практике.

Исследователи Массачусетского технологического института разработали схему поиска частной информации, которая примерно в 30 раз быстрее, чем другие сопоставимые методы. Их метод позволяет пользователю выполнять поиск в онлайн-базе данных, не раскрывая свой запрос серверу. Более того, он основан на простом алгоритме, который будет легче реализовать, чем более сложные подходы из предыдущей работы.

Их метод может обеспечить частное общение, не позволяя приложению для обмена сообщениями знать, что говорят пользователи или с кем они разговаривают. Его также можно использовать для получения релевантной онлайн-рекламы без того, чтобы рекламные серверы изучали интересы пользователей.

«Эта работа на самом деле заключается в том, чтобы вернуть пользователям некоторый контроль над их собственными данными. В долгосрочной перспективе мы хотели бы, чтобы просмотр веб-страниц был таким же приватным, как просмотр библиотеки. Эта работа еще не достигает этого, но она начинает создавать инструменты, позволяющие нам делать такие вещи быстро и эффективно на практике», — говорит Александра Хензингер, аспирант компьютерных наук и ведущий автор статьи, представляющей эту технику.

Сохранение конфиденциальности

Первые схемы поиска частной информации были разработаны в 1990-х годах частично исследователями Массачусетского технологического института. Эти методы позволяют пользователю взаимодействовать с удаленным сервером , на котором находится база данных, и считывать записи из этой базы данных, при этом сервер не знает, что читает пользователь.

Чтобы сохранить конфиденциальность, эти методы заставляют сервер касаться каждого отдельного элемента в базе данных, поэтому он не может определить, какую запись ищет пользователь. Если одна область останется нетронутой, сервер узнает, что клиент не заинтересован в этом элементе. Но касание каждого элемента, когда могут быть миллионы записей в базе данных, замедляет процесс запроса.

Чтобы ускорить процесс, исследователи Массачусетского технологического института разработали протокол, известный как Simple PIR, в котором сервер выполняет большую часть базовой криптографической работы заранее, еще до того, как клиент отправит запрос. На этом этапе предварительной обработки создается структура данных, содержащая сжатую информацию о содержимом базы данных, которую клиент загружает перед отправкой запроса.

В некотором смысле эта структура данных является как бы подсказкой для клиента о том, что находится в базе данных.

«Как только клиент получает эту подсказку, он может делать неограниченное количество запросов, и эти запросы будут намного меньше как по размеру отправляемых вами сообщений, так и по работе, которую вам нужно выполнить на сервере. делает Simple PIR намного быстрее», — объясняет Хенцингер.

Но подсказка может быть относительно большого размера. Например, чтобы запросить базу данных размером 1 гигабайт, клиенту потребуется загрузить подсказку размером 124 мегабайта. Это увеличивает затраты на связь, что может затруднить реализацию метода на реальных устройствах.

Чтобы уменьшить размер подсказки, исследователи разработали второй метод, известный как Double PIR, который в основном включает в себя двойной запуск схемы Simple PIR. Это дает гораздо более компактную подсказку фиксированного размера для любой базы данных.

Используя Double PIR, подсказка для базы данных размером 1 гигабайт будет составлять всего 16 мегабайт.

«Наша схема Double PIR работает немного медленнее, но затраты на связь будут гораздо ниже. Для некоторых приложений это будет желательным компромиссом», — говорит Хензингер.

Превышение скорости

Они протестировали схемы Simple PIR и Double PIR, применив их к задаче, в которой клиент пытается проверить определенную часть информации о веб-сайте, чтобы убедиться, что посещение веб-сайта безопасно. Чтобы сохранить конфиденциальность, клиент не может раскрыть веб-сайт, который он проверяет.

Самая быстрая техника исследователей смогла успешно сохранить конфиденциальность при скорости около 10 гигабайт в секунду. Предыдущие схемы могли обеспечить пропускную способность только около 300 мегабайт в секунду.

Они показывают, что их метод приближается к теоретическому пределу скорости для извлечения конфиденциальной информации — это почти самая быстрая из возможных схем, в которых сервер обрабатывает каждую запись в базе данных, добавляет Корриган-Гиббс.

Кроме того, для их метода требуется только один сервер, что делает его намного проще, чем многие наиболее эффективные методы, требующие двух отдельных серверов с идентичными базами данных. Их метод превзошел эти более сложные протоколы.

«Я думал об этих схемах в течение некоторого времени, и я никогда не думал, что это возможно на такой скорости. Фольклор гласил, что любая схема с одним сервером будет очень медленной. Эта работа переворачивает все это представление с ног на голову. », — говорит Корриган-Гиббс.

Хотя исследователи показали, что они могут сделать схемы PIR намного быстрее, им еще предстоит проделать большую работу, прежде чем они смогут развернуть свои методы в реальных сценариях, говорит Хензингер. Они хотели бы сократить коммуникационные расходы своих схем, при этом позволяя им достигать высоких скоростей. Кроме того, они хотят адаптировать свои методы для обработки более сложных запросов, таких как общие запросы SQL, и более требовательных приложений, таких как общий поиск в Википедии. И в долгосрочной перспективе они надеются разработать лучшие методы, которые смогут сохранить конфиденциальность, не требуя, чтобы сервер касался каждого элемента базы данных.

«Я слышал, как люди настойчиво заявляли, что PIR никогда не будет практичным. Но я бы никогда не сделал ставку против технологии. Это оптимистичный урок, который можно извлечь из этой работы. Всегда есть способы для инноваций», — старший автор Винод Вайкунтанатан, профессор EECS. и главный исследователь в CSAIL, говорит.

«Эта работа существенно снижает практическую стоимость извлечения конфиденциальной информации. Хотя было известно, что схемы PIR с низкой пропускной способностью подразумевают криптографию с открытым ключом, которая обычно на несколько порядков медленнее, чем криптография с закрытым ключом, эта работа развивает гениальный подход. Это достигается за счет разумного использования специальных свойств схемы шифрования с открытым ключом благодаря Regev, чтобы перенести большую часть вычислительной работы на этап предварительного вычисления, на котором сервер вычисляет короткую «подсказку». «О базе данных», — говорит Юваль Ишай, профессор компьютерных наук в Технионе (Израильский технологический институт), который не участвовал в исследовании.

«Что делает их подход особенно привлекательным, так это то, что одна и та же подсказка может быть использована неограниченное количество раз любым количеством клиентов. Это делает (умеренную) стоимость вычисления подсказки незначительной в типичном сценарии, когда к одной и той же базе данных обращаются многие раз».