Бум искусственного интеллекта, включая появление больших языковых моделей (LLM) и связанных с ними чат-ботов, создает новые проблемы для конфиденциальности. Является ли наша личная информация частью данных обучения модели? Передаются ли наши подсказки правоохранительным органам? Будут ли чат-боты связывать различные потоки нашей онлайн-жизни и передавать их кому-либо?
Чтобы лучше понять эти угрозы и найти потенциальные решения, Дженнифер Кинг, научный сотрудник Института человеко-ориентированного искусственного интеллекта Стэнфордского университета (Stanford HAI) и Кэролайн Мейнхардт, менеджер по политическим исследованиям Стэнфордского HAI, опубликовали официальный документ . под названием «Переосмысление конфиденциальности в эпоху искусственного интеллекта: политические провокации для мира, ориентированного на данные». Здесь Кинг описывает свои основные выводы.
С какими рисками мы сталкиваемся, поскольку наши данные покупаются, продаются и используются системами искусственного интеллекта?
Во-первых, системы искусственного интеллекта создают многие из тех же рисков конфиденциальности, с которыми мы сталкивались в последние десятилетия коммерциализации Интернета и, по большей части, неограниченного сбора данных. Разница заключается в масштабе: системы искусственного интеллекта настолько требовательны к данным и непрозрачны, что у нас еще меньше контроля над тем, какая информация о нас собирается, для чего она используется и как мы можем исправить или удалить такую личную информацию. Сегодня люди, использующие онлайн-продукты или услуги, практически не могут избежать систематического цифрового наблюдения в большинстве аспектов жизни, а ИИ может еще больше усугубить ситуацию.
Во-вторых, существует риск того, что другие будут использовать наши данные и инструменты искусственного интеллекта в антиобщественных целях. Например, инструменты генеративного искусственного интеллекта, обученные на данных, извлеченных из Интернета, могут запоминать личную информацию о людях, а также реляционные данные об их семьях и друзьях. Эти данные помогают реализовать целенаправленный фишинг — преднамеренное нападение на людей с целью кражи личных данных или мошенничества. Злоумышленники уже используют клонирование голоса ИИ, чтобы выдавать себя за людей, а затем вымогать у них деньги через старые добрые телефоны.
В-третьих, мы наблюдаем, как такие данные, как резюме или фотографии, которыми мы поделились или разместили с одной целью, перепрофилируются для обучения систем искусственного интеллекта, часто без нашего ведома или согласия, а иногда и с прямыми последствиями для гражданских прав.
Системы прогнозирования используются для отбора кандидатов и помощи работодателям в принятии решения, кого проводить собеседования на открытые вакансии. Однако были случаи, когда ИИ, используемый для помощи в выборе кандидатов, был предвзятым. Например, компания Amazon, как известно, создала свой собственный инструмент проверки найма на основе искусственного интеллекта, но обнаружила, что он предвзято относится к найму женщин.
Другой пример связан с использованием распознавания лиц для идентификации и задержания людей, совершивших преступления. Легко подумать: «Хорошо иметь такой инструмент, как распознавание лиц, потому что он поймает плохих парней». Но вместо этого из-за предвзятости, присущей данным, используемым для обучения существующих алгоритмов распознавания лиц, мы наблюдаем многочисленные ложные аресты чернокожих мужчин. Алгоритмы просто неправильно их идентифицируют.
Неужели мы настолько оцепенели от мысли, что компании забирают все наши данные, что уже слишком поздно что-либо делать?
Я оптимист. Конечно, обо всех нас собрано много данных, но это не значит, что мы все еще не можем создать гораздо более сильную систему регулирования, которая требует от пользователей давать согласие на сбор их данных или заставляет компании удалять данные, когда они злоупотребляют.
В настоящее время практически в любом месте, где вы заходите в Интернет, ваше перемещение по различным веб-сайтам отслеживается. А если вы используете мобильное приложение и на вашем телефоне включен GPS, данные о вашем местоположении собираются. Этот дефолт является результатом того, что около 20 лет назад отрасль убедила Федеральную торговую комиссию в том, что, если мы перейдем от отказа к сбору данных с согласия, у нас никогда не будет коммерческого Интернета. На данный момент, я думаю, мы установили полезность Интернета. Я не думаю, что компаниям нужно такое оправдание для сбора данных о людях.
На мой взгляд, когда я просматриваю информацию в Интернете, мои данные не должны собираться до тех пор, пока я не сделаю какой-либо утвердительный выбор, например, подписавшись на услугу или создав учетную запись. И даже в этом случае мои данные не должны считаться общедоступными, если я не согласен поделиться ими.
Десять лет назад большинство людей задумывались о конфиденциальности данных при совершении покупок в Интернете. Они подумали: «Не знаю, волнует ли меня, знают ли эти компании, что я покупаю и что ищу, потому что иногда это полезно». Но теперь мы видим, как компании переходят на повсеместный сбор данных, который обучает системы искусственного интеллекта, что может оказать серьезное влияние на общество, особенно на наши гражданские права. Я думаю, еще не поздно все вернуть. Эти правила и практики по умолчанию не высечены на камне.
В качестве общего подхода к защите конфиденциальности данных, почему недостаточно принять правила по минимизации данных и ограничению их целей, согласно которым компании могут собирать данные только для ограниченных целей?
Эти типы правил имеют решающее значение и необходимы. Они играют ключевую роль в европейском законе о конфиденциальности [GDPR] и его калифорнийском эквиваленте [CPPA] и являются важной частью предлагаемого на федеральном уровне закона о конфиденциальности [ADPAPA]. Но меня беспокоит то, как регулирующие органы в конечном итоге реализуют эти правила.
Например, как регулирующий орган может оценить, что компания собрала слишком много информации для той цели, для которой она хочет ее использовать? В некоторых случаях может быть очевидно, что компания полностью переборщила, собирая ненужные ей данные. Но это более сложный вопрос, когда компании (например, Amazon или Google) могут реально заявить, что они делают много разных вещей, а это означает, что они могут оправдать сбор большого количества данных. С этими правилами это не непреодолимая проблема, но это реальная проблема.
В вашем официальном документе указаны несколько возможных решений проблем конфиденциальности данных, создаваемых ИИ. Во-первых, вы предлагаете перейти от отказа к совместному использованию данных, что можно было бы сделать более плавным с помощью программного обеспечения. Как это будет работать?
Я бы сказал, что по умолчанию наши данные не собираются, если мы не попросим их собрать. В этом направлении было несколько движений и технологических решений.
Одним из них является прозрачность отслеживания приложений Apple (Apple ATT), которую Apple запустила в 2021 году для решения проблем, связанных с объемом пользовательских данных, собираемых сторонними приложениями. Теперь, когда пользователи iPhone загружают новое приложение, система Apple iOS спрашивает, хотят ли они разрешить приложению отслеживать их в других приложениях и на веб-сайтах. Согласно отчетам маркетинговой индустрии, от 80% до 90% людей, которым предоставлен такой выбор, говорят «нет».
Другой вариант заключается в том, чтобы в веб-браузерах был встроен сигнал отказа, такой как Global Privacy Control, который предотвращает размещение файлов cookie третьими лицами или продажу личных данных без необходимости устанавливать флажок. В настоящее время Закон Калифорнии о защите конфиденциальности (CPPA) предусматривает, что браузеры могут включать эту возможность, но это не является обязательным. И хотя некоторые браузеры (например, Firefox и Brave) имеют встроенный сигнал отказа, у крупных браузерных компаний (таких как Microsoft Edge, Apple Safari и Google Chrome) его нет. Интересно, однако, что законодатель штата Калифорния недавно предложил внести изменения в CPPA, которые потребуют от всех производителей браузеров уважать сторонние сигналы отказа. Это именно то, что нам нужно, чтобы данные не собирались всеми возможными субъектами и в каждом месте, куда бы вы ни пошли.
Вы также предлагаете использовать подход к обеспечению конфиденциальности данных, основанный на цепочке поставок. Что, по вашему мнению, это будет означать?
Когда я говорю о цепочке поставок данных, я имею в виду то, как системы ИИ поднимают проблемы на стороне ввода и вывода данных. Что касается входных данных, я имею в виду часть обучающих данных, где мы беспокоимся о том, собирается ли личная информация человека из Интернета и включается ли она в обучающие данные системы. В свою очередь, наличие нашей личной информации в обучающем наборе потенциально оказывает влияние на выходную сторону. Например, генеративная система искусственного интеллекта могла бы запомнить мою личную информацию и предоставить ее в качестве вывода. Или генеративная система искусственного интеллекта может раскрыть обо мне что-то, основанное на выводах из множества точек данных, которые иначе не известны или не связаны и не связаны с какой-либо личной информацией в наборе обучающих данных.
В настоящее время мы зависим от компаний, занимающихся искусственным интеллектом, которые удаляют личную информацию из своих обучающих данных или устанавливают ограждения, предотвращающие выход личной информации на выходную сторону. И это не совсем приемлемая ситуация, потому что мы зависим от того, что они решат поступить правильно.
Регулирование ИИ требует уделять особое внимание всей цепочке поставок данных — не только для защиты нашей конфиденциальности, но и для того, чтобы избежать предвзятости и улучшить модели ИИ. К сожалению, некоторые дискуссии о регулировании ИИ в США вообще не касались данных. Мы сосредоточились на требованиях прозрачности целей алгоритмических систем компаний. Даже Закон об искусственном интеллекте в Европе, в котором GDPR уже является основой конфиденциальности, не дал широкого взгляда на экосистему данных, которая питает ИИ. Это упоминалось только в контексте систем искусственного интеллекта высокого риска. Итак, это та область, где предстоит проделать большую работу, если мы хотим иметь хоть какое-то представление о том, что наша личная информация защищена от включения в системы искусственного интеллекта, включая очень большие системы, такие как базовые модели.
В своем отчете вы отмечаете, что внимание к индивидуальным правам на неприкосновенность частной жизни слишком ограничено, и нам необходимо рассмотреть коллективные решения. Что ты имеешь в виду?
Если мы хотим дать людям больше контроля над своими данными в контексте, когда генерируются и собираются огромные объемы данных, мне ясно, что удвоения индивидуальных прав недостаточно.
В Калифорнии, где действует закон о конфиденциальности данных, большинство из нас даже не знает, какими правами мы обладаем, не говоря уже о времени, чтобы понять, как ими воспользоваться. И если бы мы действительно хотели их реализовать, нам пришлось бы направлять индивидуальные запросы каждой компании, с которой мы взаимодействовали, с требованием, чтобы они не продавали нашу личную информацию — запросы, которые нам пришлось бы делать каждые два года, учитывая, что эти Отказ «не продавать» не является постоянным.
Все это указывает на необходимость коллективного решения, чтобы у общественности было достаточно рычагов для ведения переговоров о своих правах на данные в широком масштабе. На мой взгляд, концепция посредника данных имеет наибольший смысл. Это предполагает делегирование полномочий на переговорах по поводу ваших прав на данные коллективу, который сделает всю работу за вас, что дает потребителям больше рычагов воздействия.
Мы уже видим, как посредники данных обретают форму в некоторых контекстах между бизнесом и могут принимать различные формы, такие как распорядитель данных, доверие, кооператив, сотрудничество или общественное достояние. Внедрить их в потребительском пространстве будет сложнее, но я не думаю, что это невозможно.