Защита личности участников дискуссии в маркетинговых исследованиях

Предупреждение о новостях: то, что компания, занимающаяся маркетинговыми исследованиями, сообщает участникам опроса, что их личная информация останется анонимной, не означает, что это правда.

Нет, это не большой секрет. Но не только личная информация может быть скомпрометирована: согласно исследованию, проведенному профессором бизнес-колледжа Корнелла С. К. Джонсона и его коллегами, весьма вероятно, что личность участника опроса и другую конфиденциальную информацию можно на самом деле отследить до человека.

«Когда организации выпускают или обмениваются данными, они соблюдают правила конфиденциальности , а это означает, что они скрывают или анонимизируют информацию, позволяющую установить личность», — сказал Сачин Гупта, доктор философии, профессор менеджмента имени Генриетты Джонсон Луи в Университете Сэмюэля Кертиса Джонсона. Высшая школа менеджмента в колледже SC Johnson.

«И они думают, что теперь они защитили конфиденциальность людей, о которых они делятся данными», — сказал он. «Но на самом деле это может быть не так, потому что данные всегда можно связать с другими данными».

Почти все участники панели маркетинговых исследований рискуют стать деанонимными, говорится в новой статье «Риск повторной идентификации в панельных данных: защита для k-анонимности», опубликованной 7 октября в журнале Information Systems Research .

Соавторы: Мэтью Шнайдер, MS, Ph.D., адъюнкт-профессор наук о принятии решений и информационных систем управления в Университете Дрекселя; Ян Ю, доктор философии, профессор бизнес-аналитики Джозефа С. Стерна в Университете Цинциннати; и Шаобо Ли, доцент Школы бизнеса Канзасского университета.

Ни для кого не секрет, что личные данные — имя, дата рождения, адрес электронной почты и другие идентификаторы — витают в эфире, готовые к тому, чтобы их взял высоко мотивированный человек или компания. Это было доказано бесчисленное количество раз; Гупта и его коллеги сослались на статью 2008 года пары исследователей из Техасского университета в Остине, которые разработали алгоритм деанонимизации Scoreboard-RH, который смог идентифицировать до 99% подписчиков Netflix, используя анонимную информацию из Конкурс 2006 года, направленный на улучшение службы рекомендаций в сочетании с общедоступной информацией в базе данных фильмов в Интернете.

Это исследование, как и исследование Гупты, основано на «квазиидентификаторах» или QID, которые являются атрибутами, общими как для анонимных наборов данных, так и для общедоступных наборов данных, которые можно использовать для их связывания. Обычная мера риска раскрытия информации, называемая уникальностью, представляет собой долю лиц с уникальными QID в заданном наборе данных; k-анонимность — это популярная модель конфиденциальности данных, направленная на защиту от риска раскрытия за счет снижения степени уникальности QID (т. е. информация о QID любого человека должна совпадать с информацией о QID как минимум k-1 другого человека).

«Unicity был разработан для перекрестных данных, где у вас есть одно наблюдение на человека», — сказал Гупта. «Но во многих из этих наборов данных у вас есть продольные данные — один и тот же человек наблюдается с течением времени. И теперь риск повторной идентификации меняется из-за наличия нескольких наблюдений».

Гупта и его коллеги разработали то, что они называют «неуникальностью» — как снежный ком уникальности — что, по сути, является риском повторной идентификации в наихудшем сценарии, поскольку он итеративно собирает людей, которые могут быть однозначно повторно идентифицированы по крайней мере по одной из их многочисленных записей. .

В своем исследовании Гупта и его коллеги изучили данные исследования рынка по 15 часто покупаемым категориям потребительских товаров, а также рецепты врачей. Они обнаружили, что, основываясь только на уникальности (всего одно наблюдение на участника), риск повторной идентификации в панельных данных очень высок — например, до 64% для покупок газированных напитков.

Однако при использовании sno-unicity (несколько наблюдений на участника дискуссии) это число возрастает до 94% и выше во всех 15 категориях. Другими словами, данные людей не так защищены, как могут думать исследователи маркетинга. «Мы демонстрируем, — сказал Гупта, — что риск повторной идентификации в таких данных значительно занижен традиционным показателем уникальности».

Пример риска: анализ исследователей показал, что среди домохозяйств, которые можно было повторно идентифицировать на основе их покупок соленых закусок в данном магазине, 20% купили пиво и 2% купили сигареты в другом магазине. Даже если эта информация никогда не используется, сам факт ее получения является нарушением конфиденциальности данных.

Новый подход исследователей, называемый k-анонимизацией минимального движения на основе графа (k-MM), был специально разработан для сохранения полезности панельных данных с минимальной потерей информации. Искажение используется для защиты личности участников дискуссии — например, путем незначительного изменения выбора бренда участником дискуссии — но это отрицательно влияет на ценность данных.

«Потребители этих панельных данных платят за эту информацию, поэтому мы не хотим терять слишком много», — сказал Гупта. «И все же мы хотим защитить конфиденциальность, поэтому вам нужно найти ту точку на кривой, где вы гарантируете некоторый порог конфиденциальности — в нашем случае k-анонимность — при минимизации потери информации».

Хотя в США и других странах принимаются законы о неприкосновенности частной жизни, которые усложняют получение информации нечестным путем, Гупта сказал, что это исследование по-прежнему имеет жизненно важное значение. Исследователи рынка по-прежнему будут собирать и хранить данные, а это означает, что защита конфиденциальности по-прежнему будет проблемой.

«Характер проблемы, вероятно, уменьшится и изменится, — сказал он, — но я не думаю, что она исчезнет».