+7 (495) 230-01-45

Ваше новое хранилище данных: на что обратить внимание при миграции?


Автор: Райская Евгения, руководитель центра компетенций, ДАР, ГК "КОРУС Консалтинг"Время прочтения: 4 минДата публикации: 25.12.2024
В последние два года многие российские компании сталкиваются с необходимостью миграции своих хранилищ данных (ХД) с международных платформ на отечественные или open source решения.

Параллельно меняется сам подход к построению ХД. Раньше компании сначала загружали данные в единое хранилище и только потом думали, какие аналитические отчеты на его базе строить. Теперь же большинство организаций сразу решает бизнес-задачу – создает отчетность по определенному блоку, и для этого строит ХД. Получается, что у них уже есть отчетность и ХД и им не нужно собирать потребности пользователей. Этот подход облегчает миграцию данных: компании видят, какие отчеты нужны, и мигрируют ХД соответственно.

Тем не менее, есть несколько важных шагов, которые придется учитывать при переносе вашего ХД, чтобы ваш заказчик был доволен.

Шаг 1: Определить цели миграции

Первоочередная задача, которую вы должны решить — определить цели миграции. Это нужно сделать, опираясь на проблемы, с которыми компания столкнулась. Это может быть, например, нехватка места для новых данных в ХД или необходимость ухода от западных технологий.
Необходимо проанализировать, какие основные задачи закрывало старое ХД. Новое хранилище должно не только выполнять те же функции, но и обладать актуальной документацией и оптимизированной структурой без излишних данных. Если не решить эти задачи заранее, то вместо миграции вы будете заниматься рефакторингом: то есть поменяете код, но оставите старые ошибки.

Шаг 2: Проверить качество данных

Качество данных в ХД является одним из критических аспектов для получения консистентной информации, которой можно доверять. Несмотря на то, что существуют специализированные инструменты Data Quality, которые обеспечивают качество данных, необходимо помнить, что со 100% вероятностью какая-то информация в старое ХД заливалась из Excel, что-то подправлялось вручную, а что-то корректировалось прямо в интерфейсе. Это приводит к тому, что данные в старом и новом хранилищах не «сойдутся».

Как этого избежать? Надо понять причины, почему появились внесистемные данные, а дальше внедрить комплексный подход к ведению информации. Внесистемные данные — это риски, которые могут и в дальнейшем приводить к ошибкам и вынуждать заниматься корректировкой данных.

Если внесистемные данные были временным явлением, можно перенести их из старого ХД за прошлые периоды, то есть рассматривать старое ХД просто как источник исторических данных.

Шаг 3: Провести предпроектное обследование

До начала миграции стоит провести аудит старого ХД и четко задокументировать, какая функциональность у него останется. Возможно, имеет смысл оставить в нем исторические данные для того, чтобы при необходимости восстановить систему отчетности прошлых лет, при этом не перегружая новое ХД.

Шаг 4: Выбрать модель данных

Во многих проектах по миграции ХД стало «модно» использовать модель данных datavault. Однако надо помнить, что, помимо плюсов, у этой модели есть особенности, которые могут повлиять на скорость расчета витрин — большое количество таблиц, дополнительные джойны, которые раньше были не нужны.
Поэтому при выборе модели для будущего ХД надо вспомнить о цели, ради которой оно строится. Если это просто хранение с возможным последующим масштабированием данных, то data vault подойдет. Однако если это подготовка агрегатов, витрин данных и аналитической отчетности, лучше делать комбинацию data vault с третьей нормальной формой.

Шаг 5: Обучить команду

От того, насколько команда разработки и поддержки мотивирована и готова заняться работой с новым ХД, зависит успех проекта миграции.

Если в организации есть собственная сильная ИТ-команда, то можно строить ХД самостоятельно. Однако многие компании решают эту задачу приглашением консультантов-интеграторов или вендоров, которые уже реализовывали миграцию и проводят полноценное обучение.

Куда мигрировать хранилища данных сегодня

Сегодня выбор технологий для ХД в России не так велик — это может быть Greenplum, Hadoop или Spark, то есть решения на базе open source.

Вне зависимости от того, что вы выберете, помните, что главное, что надо учитывать — это масштабируемость, скорость обработки и легкость интеграции с существующими системами при выборе платформы.

К сожалению, нет «супертаблетки», которая поможет сделать отличное ХД: в каждом конкретном случае надо смотреть на цели и задачи. В любом случае важно помнить, что успех миграции определяется не только техническими решениями, но и четким пониманием бизнес-потребностей и организационной подготовленностью компании. Тщательное планирование и внимание к деталям могут обеспечить плавный переход к современным решениям для работы с данными.

Источник: tproger.ru

Остались вопросы? Пишите на data2@korusconsulting.ru
И подписывайтесь на наш телеграм-канал про аналитику и данные Analytics Now

Закажите бесплатную консультацию эксперта

Читайте также