Надо сказать, что data governance – это не совсем системы. Точнее правильнее –не только системы. Это прежде всего стратегия для эффективного управления корпоративными данными. И только потом это набор инструментов, которые позволяют бизнесу понять, какими активами данных он владеет, как эти данные связаны друг с другом, кто и как ими пользуется, позволяет управлять их качеством.
Внедрение или кастомизация российский BI-систем, соответствующих требованиям импортозамещения, позволяет с минимальными рисками для деятельности компании обеспечивать прозрачность, оптимизировать бизнес и создавать инновационные продукты для своих заказчиков.
Так как в русском языке data governance переводится, как управление данными, то часто этот термин путают с термином data management. В чем же разница?
Одним из основных различий между двумя бизнес-функциями является то, что Data Governance – это стратегия, а Data Management – тактика. Это означает, что в дополнение к созданию общей парадигмы управления данными в организации, руководители должны определить конкретные практики по управлению информацией, для того чтобы достигать своих целей. Кроме того, Data Governance не контролируется технологическими решениями. Напротив, бизнес использует технологии для того, чтобы решить основные вопросы, которые ставит перед ним план по управлению данными. Наконец, важно понимать, что Data Governance и management работают параллельно друг другу и дополняют друг друга.
В идеале для обеспечения организационного процесса управления корпоративными данными нужно создать специальную организационную единицу, которая будет заниматься управлением данными как активом организации. Это большой сложный вопрос: каким образом методологически управлять жизненным циклом данных, каким образом поддерживать корпоративную модель данных. Без такой модели, без понимания, какие данные есть в организации, как ими управлять и как они могут быть использованы бизнесом, данные не представляют никакой ценности.
Администрирование данных чаще всего объединяет в себе такие понятия, как обслуживание процессов управления данными (Data Stewardship), качеством данных (Data Quality), а также другие концепции, реализация которых способствует достижению наибольшего контроля компании над своими активами данных. Сюда также можно включить методы, технологии и тактики грамотного управления данными. Справедливо упомянуть здесь безопасность и конфиденциальность, целостность, удобство в использовании, гибкость, доступность, разграничение ролей и обязанностей, а также управление внутренними и внешними потоками данных компании в целом.
Компании, которые используют Data Governance, выделяют следующие преимущества: более низкие затраты на управление данными (Data Management) за счет переиспользования процедур, управление соответствием нормам регулятора и соблюдением compliance-практик, прозрачность любых действий с данными, помощь во внедрении обучения управления активами данных. Но если говорить совсем просто, то главное, Data Governance решает три задачи: обеспечивает доступность наших данных, прозрачность жизненного цикла данных и дает пользователям компании согласованные непротиворечивые и проверенные данные.
Важной вещью при внедрении практик Data Governance является бизнес-глоссарий. Мы все знаем, что даже в рамках одной и той же компании бизнес говорит на разных языках. Да, используют одни и те же термины, но понимают под ними совершенно разные вещи. Как раз эту проблему призван решить бизнес-глоссарий.
Это не просто справочник с описанием терминов и методологией расчета. Это полноценная среда разработки, согласования и утверждения терминологии, построения взаимосвязей терминов с другими информационными активами компании. Перед тем как попасть в бизнес-глоссарий, термин должен пройти все этапы согласования с бизнес-заказчиками и центром качества данных. Только после этого он становится доступным для использования. Уникальность такого инструмента в том, что он позволяет проводить связи от уровня бизнес-термина до конкретных пользовательских отчётов, в которых он используется, а также до уровня физических объектов баз данных.
Data Governance не является моделью отношения к данным, использование которой гарантирует краткосрочный успех. Приготовьтесь к тому, что процесс будет долгим и местами сложным.
Базовый шаг для создания практики Data Governance – проектирование зрелой ИТ-архитектуры. Работа с данными, которые стали стратегическим цифровым активом, требует от вычислительной инфраструктуры максимальной гибкости. Поэтому главной задачей каждого ИТ-директора становится создание архитектуры для производительной работы аналитики и платформ.
Одним из примеров работы с инфраструктурой в рамках стратегии Data Governance можно назвать создание единой виртуальной среды для работы с данными. Для этого необходимы правильно выстроенные мощности, объединяющие производительные вычислительные платформы для больших массивов информации, СХД для архива, накопители для хранения горячих данных и быстрого доступа к ним в любой момент времени.
Уже после создания готовой к переходу на Data Governance вычислительной инфраструктуры, можно решать, где хранить данные. Это можно делать внутри компании, а можно отдать в облако, во внешний центр обработки данных или частный ЦОД. Одновременно собираются в каталог данных все технические метаданные (например, данные о том, в каких информационных системах хранится информация), а для каждого бизнес-термина фиксируется в бизнес-глоссарии единое для всей компании определение.
Далее, следует скорректировать управление данными в существующих производственных системах: ввести ролевую модель и распределить обязанности и полномочия на заведение и проверку данных, чтобы их вводили и проверяли опытные эксперты, а не все пользователи систем. Дополнительно можно добавить процедуру перекрестной проверки данных между системами, например, в аналогичных системах проверять наличие данных, которые уже введены, и в свою систему вводить их подобным образом, без противоречий с введенными. Если же противоречия неизбежны, то инициировать процедуру исправления недостоверных данных.
Следующий шаг — настройка процессов извлечения данных из систем трансформации и загружать их в нужные представления (ETL, Extract, Transform & Load). То есть для корректной передачи данные нужно привести к единой системе значений и детализации. Получаемые при этом преимущества — готовые процедуры выгрузки и необходимых преобразований данных, которые можно многократно применять по запросу. Как правило, инструменты ETL позволяют быстро дополнять и менять настройки трансформации, что дополнительно сокращает издержки.
Одновременно с ETL желательно внедрить корпоративную сервисную шину данных (Enterprise Service Bus, ESB), поскольку это позволит автоматизировать процесс доставки нужных данных в нужные места к нужному времени, гарантировать такую доставку и централизовать управление интеграцией. Некоторые компании на этом ставят точку, так как дальнейшие действия для организаций определенных отраслей и размеров потребуют больших инвестиций в изменение процессов работы.
После закрытия базовых потребностей в Data Governance можно говорить о полноценном контроле качества данных. Решается это с помощью профилирования данных. Идентифицируются параметры, которые будут контролироваться и вводится понятие «качественные данные». Все эти инициативы позволяют начать полноценную работу по улучшению качества данных и поддержанию их в этом состоянии.
Поддерживать данные в качественном состоянии можно с применением процедур Data Quality. Это довольно серьезный механизм, требующий существенной проработки деталей: назначения ответственных (Data Steward), разработки методологии, использования автоматических систем. Зато при использовании этих механизмов можно говорить о качественных, непротиворечивых, достоверных, неповторяющихся данных.
Еще одним большим блоком становится внедрение инструмента управления мастер-данными (Master Data Management, MDM). MDM необходим для управления процессом сбора данных, их верификации, дедупликации и превращения обычного хранилища в хранилище чистых данных. Исполнение этой части влечет за собой существенное изменение работы предприятия с данными. Ставятся на контроль точки их заведения, регламентируются любые изменения, вводятся новые роли, для которых разрабатываются процедуры и инструменты помощи в принятии решений в случае противоречий.
И, конечно, перед всем процессом создания data governance, очень важно внедрить правила для обеспечения качества данных и провести соответствующие организационные изменения. Всё это позволит точнее и быстрее анализировать данные, формировать отчётность и принимать правильные бизнес-решения. И в итоге ответить на главный вызов – создать адекватную модель и инструменты управления данными.
Увы, в большинстве российских компаний этот вопрос пока никак не решается, хотя в западных организациях много примеров отношения к данным как к важнейшему корпоративному активу. Поэтому на рынке существует множество программных решений для управления данными.
Чтобы познакомиться с лучшими образцами, проще всего обратиться к аналитическим агентствам. Gartner регулярно выпускает Магические квадранты, в которых только в группе Лидеров указывается около десятка вендоров. Те, кому интересно посмотреть на всех, с легкостью найдут этот квадрант в сети, я лишь скажу, что последние годы лидером упорно держится Informaticа. Она же, надо отметить, на первых позициях в рейтингах IDC, вторых главных аналитиков ИТ-мира. В их исследовании по оценке производителей программных решений по каталогизации данных Informatica значительно опережает всех остальных вендоров, и единственный, кто в состоянии ее догнать, это IBM.
Но какой конкретно программный продукт использовать для управления данными вы еще успеете решить. Пока давайте просто запомним, что просто почистить данные, создать идеальную систему бизнеса-анализа недостаточно. Главное, как она будет поддерживаться. Для этого и нужен data governance.
Источник: TAdviser