Новая структура для сбора данных из веб-страниц, обеспечивающая их достоверность для использования в маркетинговых исследованиях

Исследователи из Университета Эразма в Роттердаме, Тилбургского университета, INSEAD и Оксфордского университета опубликовали новую статью в Journal of Marketing, в которой предлагается методологическая основа, ориентированная на повышение достоверности веб-данных.

Авторами исследования являются Йоханнес Бегерсхаузен, Ханнес Датта, Абхишек Бора и Эндрю Т. Стивен.

Недавнее решение Девятого судебного округа по делу HiQ Labs против LinkedIn подчеркивает важность решения юридических проблем при использовании парсинга веб-страниц для сбора данных для научных исследований. Хотя сбор информации с общедоступных сайтов может быть разрешен, исследователям по-прежнему необходимо проявлять осторожность в отношении того, как они разрабатывают свое программное обеспечение для извлечения данных. Например, сбор информации из общедоступных профилей пользователей в некоторых юрисдикциях может вызвать проблемы с конфиденциальностью и побуждает исследователей анонимизировать свои данные во время сбора.

В то время как исследователи маркетинга все чаще используют веб-данные, своеобразным и иногда коварным проблемам в их сборе уделяется ограниченное внимание. Как исследователи могут гарантировать, что наборы данных, сгенерированные с помощью веб-скрапинга и API, действительны? Эта исследовательская группа разработала новую структуру, которая подчеркивает, как решение проблем достоверности требует совместного рассмотрения идиосинкразических технических и юридических/этических вопросов.

Авторы говорят, что их «структура охватывает широкий спектр проблем достоверности, возникающих на трех этапах автоматического сбора веб-данных для академического использования: выбор источников данных , проектирование сбора данных и извлечение данных. При обсуждении методологической основы , мы предлагаем стилизованный маркетинговый пример для иллюстрации. Мы также даем рекомендации по решению проблем, с которыми сталкиваются исследователи при сборе веб-данных с помощью веб-скрапинга и API».

Далее в статье представлен систематический обзор более 300 статей с использованием веб-данных, опубликованных в пяти ведущих маркетинговых журналах. Используя этот обзор, исследователи объясняют, как веб-данные продвинули маркетинговую мысль. Понимание богатства и универсальности веб-данных имеет неоценимое значение для ученых, которым интересно интегрировать их в свои исследовательские программы.

Заинтересованные исследователи могут получить доступ к базе данных, разработанной для этого обзора, на сопутствующем веб-сайте. На этом веб-сайте также представлены дополнительные полезные ресурсы и учебные пособия по сбору веб-данных с помощью парсинга веб-страниц и API-интерфейсов.

Исследователи добавляют, что они используют свою «методологическую основу и типологию для обнаружения новых и недостаточно используемых «золотых полей», связанных с веб-данными. . В разделе «Исследования будущего» освещаются новые и творческие возможности использования веб-данных, которые включают изучение малоиспользуемых источников, создание обширных наборов данных из нескольких источников и полное использование потенциала API помимо извлечения данных».