Управление качеством данных: что вам нужно знать


22.03.2019

В связи со стремительным ростом объемов данных, которые собирают и накапливают компании, Data Management становится ключевым критерием работы с информацией, который помогает улучшать результаты бизнеса. Один из лидеров в разработке решений для продвинутой аналитики, корпорация SAS, рассказывает о том, почему так важно Enterprise-компаниям управлять качеством своих данных, как справляться с переизбытком массивов информации, а также какой должна быть система, решающая задачи Data Quality.

Насколько важен Data Management?

Помимо того, что управление качеством данных повышает пригодность используемой информации при анализе, Data Management формирует для руководителей представлениями о том, насколько качественны и полезны накапливаемые данные. Устаревшие и ненадежные сведения могут привести к ошибкам и неправильным решениям, а грамотно выстроенный процесс управления качеством данных способствует созданию базы для инициатив бизнеса. В частности, это касается установки некой структуры для всех подразделений компании, которая обеспечивает соблюдение правил качества данных.

Data Management сокращает ненужные затраты благодаря тому, что актуальные данные дают точное представление о повседневной деятельности и расходах компании. Недостаточно высокое Data Quality может привести к дорогостоящим ошибкам и промахам.

Управление качеством данных также помогает соответствовать необходимым требованиям и амбициозным целям бизнеса. Для этого требуется четкое следование процедурам и корректно выстроенные коммуникации, помогающие собирать наиболее подходящие для каждой задачи данные.

Аспекты и характеристики управления качеством данных

Перечень аспектов достаточно подвижен и растёт по мере увеличения объёмов и разнообразия данных. К основным и постоянным относятся:

  • достоверность данных (имеет первостепенное значение для получения точных выводов);
  • полнота информации;
  • последовательность;
  • обновляемость данных по всем направлениям деятельности компании;
  • уникальность сведений, отсутствие дублирования.

Для повышения надежности ваших данных эксперты SAS рекомендуют использовать систему, учитывающую следующие функции:

  • Профилирование (мониторинг и очистка данных)

Данная функция помогает исправить дубликаты записей и неизвестные типы данных, обеспечивает соблюдение правил стандартизации данных, необходимых для предоставления информации из ваших наборов данных. Помимо этого, она устанавливает иерархии данных и ссылается на определения данных, чтобы настроить их в соответствии с уникальными потребностями компании.

  • Проверка бизнес-правил и создание бизнес-словаря

Включает в себя формирование описаний и требований к переводам бизнес-терминов между системами, что помогает воздействовать на данные низкого качества, прежде чем они нанесут вред при принятии управленческих решений.

  • Централизованное представление активности компании через консоль управления данными – один из способов упрощения процесса.

Основные проблемы управления качеством данных

Огромные массивы потоковых данных, получаемых от устройств, интегрированных с Интернетом Вещей, или контрольных точек отгрузки, коих в компании может быть бесчисленное количество, могут оказывать разрушительное влияние на бизнес в виде переполненных серверов. Без приведения такого количества информации в порядок менеджмент компании может столкнуться с такими проблемами в управлении качеством, как:

  • Необходимость перепрофилирования

Многочисленное повторение идентичных наборов данных в разных контекстах приводит к тому, что одни и те же сведения имеют расхожие значения в разных настройках, а достоверность и согласованность данных ставятся под сомнение. Для решения этой проблему потребуется хорошее качество данных, чтобы навести порядок в неструктурированных наборах.

  • Потребность в валидации

При использовании взятых извне наборов данных повышается вероятность сложного внедрения элементов управления проверки. Исправление ошибок приведет к несогласованности данных с исходным кодом, и, напротив, сохранение согласованности означает уступить в качестве этих данных.

  • Отсутствие обновлений

Регулярные обновления данных продлевают срок службы исторической информации, которая оставлена на хранении. Они же актуализируют для бизнеса необходимость проверок и управления. Новые данные могут быть извлечены из старых, но эти данные должны быть корректно включены в новые наборы.

Где и когда должно происходить управление качеством данных?

Разные проблемы бизнеса требуют различного времени отклика – лучше всего наблюдать за управлением качества данных через призму той или иной проблемы, возникающей в каждом конкретном случае.

К примеру, в финансовой компании существует потребность в анализе данных в режиме реального времени, в том числе в процессе обработки транзакции с использованием кредитной карты – бизнесу критически важна возможность фиксировать мошеннические действия. Для менее насущной задачи, такой как обновление карточки лояльности и бонусных очков для клиентов, обработку данных можно проводить в ночном режиме. Однако в обоих случаях компания применяет принципы управления качеством данных в реальном мире, осознавая потребности своих клиентов и эффективно решая задачу.

Подробнее о комплексе инструментов по управлению данными читайте на нашем сайте.


Перевод статьи SAS – Data quality management: What you need to know