Основные проблемы подготовки данных и способы их преодоления

Прочитано: 87 раз(а)


Подготовка данных является важной частью аналитических приложений, но она сложна. Вот семь распространенных проблем, которые могут сбить процесс подготовки данных с намеченного пути.

Появление инструментов самообслуживания BI позволило людям, не связанным с ИТ, самостоятельно анализировать данные и создавать визуализации данных и информационные панели. Это было потрясающе, когда данные были готовы для анализа, но оказалось, что большая часть усилий по созданию BI-приложений связана с подготовкой данных . Это все еще так, и многочисленные проблемы усложняют процесс подготовки данных.

С этими проблемами все чаще сталкиваются бизнес-аналитики, специалисты по данным, инженеры данных и другие пользователи, не связанные с ИТ. Это связано с тем, что поставщики программного обеспечения также разработали инструменты для самостоятельной подготовки данных . Эти инструменты позволяют пользователям бизнес-аналитики и специалистам по обработке и анализу данных выполнять необходимые задачи по подготовке данных для проектов аналитики и визуализации данных. Но они не устраняют сложности, присущие подготовке данных.

Почему поиск механизма обмена данными, сохраняющего конфиденциальность, терпит неудачу

Почему важна эффективная подготовка данных?

На современном предприятии доступно огромное количество данных для анализа и принятия мер для улучшения бизнес-операций. Но данные, используемые в аналитических приложениях, часто собираются из различных источников, как внутренних, так и внешних. Скорее всего, он по-разному отформатирован и содержит ошибки, опечатки и другие проблемы с качеством данных . Некоторые из них могут не иметь отношения к выполняемой работе.

В результате данные должны быть тщательно отобраны для достижения уровней чистоты, непротиворечивости, полноты, актуальности и контекста, необходимых для запланированного использования в аналитике. Поэтому правильная подготовка данных имеет решающее значение. Без этого инициативы в области бизнес-аналитики и аналитики вряд ли принесут желаемые результаты.

Подготовка данных должна производиться в разумных пределах. Как сказал Уинстон Черчилль: «Совершенство — враг прогресса». Цель состоит в том, чтобы привести данные в соответствие с их назначением, не зацикливаясь на параличе анализа или бесконечно стремясь создать идеальные данные. Но этим нельзя пренебрегать или оставлять на волю случая.

Чтобы добиться успеха, важно понимать проблемы, связанные с подготовкой данных, и способы их преодоления. Многие проблемы с подготовкой данных можно объединить под ярлыком качества данных, но полезно разделить их на более конкретные проблемы, чтобы помочь выявить, исправить и управлять проблемами. Имея это в виду, вот семь задач, к которым нужно быть готовым.

1. Неадекватное или несуществующее профилирование данных

Аналитики данных и бизнес-пользователи никогда не должны удивляться состоянию данных при выполнении аналитики — или, что еще хуже, на их решения могут влиять ошибочные данные, о которых они не знали. Профилирование данных , один из основных шагов в процессе подготовки данных, должно предотвратить это. Но есть разные причины, по которым он может этого не делать, в том числе следующие сценарии:

  • Люди, которые собирают и подготавливают данные, предполагают, что они достоверны, поскольку они уже использовались в отчетах или электронных таблицах. В результате они не полностью профилируют данные. Однако они не знают, что такие вещи, как SQL-запросы, представления, пользовательский код или макросы, манипулируют данными, что маскирует основные проблемы в наборе данных.
  • Кто-то, кто собирает большой объем данных, профилирует только образец набора данных из-за времени, которое потребуется для создания полного набора. Однако аномалии данных могут быть не обнаружены в выборке данных.
  • Пользовательские SQL-запросы или функции электронных таблиц, используемые для профилирования данных, недостаточно полны, чтобы найти все аномалии или другие проблемы в данных.

Как преодолеть это испытание. Профилирование твердых данных должно быть отправной точкой в ​​процессе подготовки данных. В этом могут помочь инструменты подготовки данных: они включают комплексные функции профилирования данных для проверки полноты, чистоты и непротиворечивости наборов данных в исходных системах, а затем в целевых системах в рамках обработки данных . При правильном выполнении профилирование данных предоставляет информацию, необходимую для выявления и решения многих проблем с данными, перечисленных в последующих задачах.

2. Отсутствующие или неполные данные

Распространенной проблемой качества данных являются поля или атрибуты с отсутствующими значениями, такими как пустые значения или пробелы, нули, которые представляют отсутствующее значение, а не число 0, или полное отсутствие поля в файле с разделителями. Вопросы подготовки данных, возникающие в связи с этими отсутствующими значениями, заключаются в том, указывают ли они на наличие ошибки в данных, и если да, то как следует обрабатывать эту ошибку. Можно ли заменить допустимое значение? Если нет, следует ли удалить запись (или строку) с ошибкой или сохранить, но пометить ее, чтобы показать наличие ошибки?

Если их не устранить, отсутствующие значения и другие формы неполных данных могут отрицательно сказаться на бизнес-решениях, принимаемых аналитическими приложениями , использующими эти данные. Они также могут привести к сбою процессов загрузки данных, которые не предназначены для обработки таких случаев. Это часто приводит к попыткам выяснить, что пошло не так, и подрывает доверие к самому процессу подготовки данных.

Как преодолеть это испытание. Во-первых, вам нужно выполнить профилирование данных, чтобы определить недостающие или неполные данные. Затем определите, что следует сделать, исходя из запланированного варианта использования данных, и внедрите согласованные процессы обработки ошибок — задачу, которую также можно выполнить с помощью инструмента подготовки данных.

3. Недопустимые значения данных

Недопустимые значения — еще одна распространенная проблема качества данных. Они включают орфографические ошибки, другие опечатки, повторяющиеся записи и выбросы, такие как неправильные даты или числа, которые не являются разумными с учетом контекста данных. Эти ошибки могут создаваться даже в современных корпоративных приложениях с функциями проверки данных , а затем попадать в тщательно отобранные наборы данных .

Если количество недопустимых значений в наборе данных невелико, они могут не оказать существенного влияния на аналитические приложения. Но более частые ошибки могут привести к ошибочному анализу данных.

Большинство людей не хотят, чтобы их личные данные приносили вред или прибыль компании

Как преодолеть это испытание. Задачи по поиску и исправлению недопустимых данных аналогичны задачам по обработке отсутствующих значений: профилируйте данные, определите, что делать при обнаружении ошибок, а затем реализуйте функции для их устранения. Кроме того, необходимо постоянно проводить профилирование данных для выявления новых ошибок. Это задача подготовки данных, где совершенство вряд ли будет достигнуто — некоторые ошибки неизбежно проскользнут, но цель должна состоять в том, чтобы сделать все возможное, чтобы они не повлияли неблагоприятно на решения, основанные на аналитике.

4. Стандартизация имен и адресов

Еще одна проблема качества данных, усложняющая подготовку данных, — несоответствие имен и адресов людей, предприятий и мест. Этот тип несоответствия включает законные варианты этих данных, а не опечатки или пропущенные значения. Но если их не обнаружить при подготовке данных, такие несоответствия могут помешать пользователям BI и аналитики получить полное представление о клиентах, поставщиках и других объектах.

Примеры несоответствий имени и адреса включают следующее:

  • сокращенное имя или прозвище вместо полного имени человека, например, Фред в одном поле данных и Фредерик в другом;
  • средний инициал против среднего имени;
  • различия в префиксах и суффиксах, таких как г-жа против г-жи, г-н против мистера или доктора философии. против доктора философии;
  • расшифрованные и сокращенные данные о месте, такие как Boulevard/Blvd, suite/ste или New York/NY;
  • аббревиатуры и полные названия компаний, такие как BMW и Bayerische Motoren Werke для немецкого автопроизводителя; и
  • предприятия попеременно указываются с и без Inc., Co., Corp., LLC и других бизнес-суффиксов в конце их названия.

Как преодолеть это испытание. Схемы исходных данных должны быть проверены, чтобы определить, какие поля имени и адреса включены, а затем профилированы данные, чтобы определить масштаб несоответствий. После того, как вы это сделаете, следующие три оптимальных способа стандартизации данных:

  • создавать настраиваемые процессы стандартизации, используя функциональные возможности обработки строк инструмента подготовки данных;
  • использовать встроенные функции стандартизации имен и адресов инструмента подготовки данных; или
  • используйте инструмент от поставщика программного обеспечения, который специализируется на стандартизации имен и адресов, в идеале тот, который интегрируется с вашим инструментом подготовки данных.

5. Несогласованность данных в корпоративных системах

Несогласованные данные также часто встречаются, когда для аналитики требуется несколько источников данных. В этом случае данные могут быть правильными в каждой исходной системе, но несогласованность становится проблемой при объединении данных из разных источников. Это повсеместная проблема для людей, занимающихся подготовкой данных, особенно на крупных предприятиях.

Как преодолеть это испытание. Когда несогласованность данных является результатом того, что атрибут, такой как поле идентификатора, имеет разные типы данных или значения в разных системах, для относительно простого исправления можно использовать преобразование данных или сопоставление перекрестных ссылок. Однако, когда это происходит из-за различий в бизнес-правилах или определениях данных в исходных системах, необходимо выполнить анализ, чтобы определить преобразования данных , которые можно реализовать при подготовке данных.

6. Обогащение данных

Одним из ключевых шагов в создании бизнес-контекста, необходимого для аналитики, является обогащение данных . Примеры мер по обогащению данных включают следующее:

  • расчет бизнес-метрик и KPI;
  • фильтрация данных на основе бизнес-правил, применимых к планируемой аналитике;
  • дополнение данных дополнительными внутренними или внешними источниками; и
  • получение дополнительных данных в существующем наборе данных.

Но обогащение данных — непростая задача. Решить, что нужно сделать с набором данных, часто сложно, а требуемая работа по обогащению данных может занять много времени.

Как преодолеть это испытание. Обогащение данных должно начинаться с четкого понимания бизнес-потребностей и целей аналитических приложений. Это упростит определение бизнес-показателей, ключевых показателей эффективности, дополненных данных и других дополнений, необходимых для удовлетворения этих потребностей, а затем определение таких вещей, как фильтры, бизнес-правила и вычисления для создания расширенных данных.

7. Поддержание и расширение процессов подготовки данных

Хотя специалисты по данным и другие аналитики выполняют множество специальных задач, более важная работа по подготовке данных, которую они выполняют, неизбежно становится повторяющимся процессом, который затем расширяется по мере того, как результирующая аналитика становится все более и более ценной. Но организации часто сталкиваются с этим с проблемами, особенно если они используют специальные методы подготовки данных.

Например, что и почему происходит в процессе подготовки данных, как правило, известно только тому, кто его создал, если нет документации по процессу или происхождению данных и тому, где данные используются. Зависимость от таких людей требует, чтобы они тратили все больше времени на эти процессы, и затрудняет поддержание работы по подготовке данных, когда они покидают организацию.

Кроме того, когда необходимы изменения или усовершенствования процесса подготовки данных, добавление нового кода делает процесс более ненадежным и трудным в обслуживании.

Как преодолеть это испытание. Инструменты подготовки данных могут помочь вам избежать этих ловушек и добиться долгосрочного устойчивого успеха в подготовке данных. Они обеспечивают преимущества производительности и обслуживания, такие как предварительно созданные соединители для источников данных, возможности совместной работы, происхождение данных, а также отслеживание использования и автоматизированное документирование, часто с графическими рабочими процессами.

Заключительные мысли о подготовке данных и связанных с этим проблемах

Чтобы преуспеть в подготовке данных, необходимо сначала понять, какие данные необходимы для аналитического приложения и связанного с ним бизнес-контекста. После того как соответствующие данные собраны из исходных систем, основные этапы их подготовки включают следующее:

  • профилирование данных для выявления проблем качества и согласованности данных;
  • очистка данных для решения этих проблем; и
  • преобразование и обогащение данных для применения необходимого бизнес-контекста для аналитики.

Выполняя эти шаги, делайте то, что уместно и возможно разумным образом, особенно при очистке данных. Имейте в виду, что совершенство часто недостижимо или может не стоить затрат на достижение — и что это действительно может быть врагом прогресса в подготовке данных.

Центры обработки данных и энергосистема. Требования, проблемы и возможности для обеих сторон



Новости партнеров