Дата публикации

25.12.2024

Содержание

    Рассказываем об основных шагах, как правильно провести миграцию хранилища данных на новые технологии в современных условиях в России.

    В последние два года многие российские компании сталкиваются с необходимостью миграции своих хранилищ данных (ХД) с международных платформ на отечественные или open source решения.

    Параллельно меняется сам подход к построению ХД. Раньше компании сначала загружали данные в единое хранилище и только потом думали, какие аналитические отчеты на его базе строить. Теперь же большинство организаций сразу решает бизнес-задачу – создает отчетность по определенному блоку, и для этого строит ХД. Получается, что у них уже есть отчетность и ХД и им не нужно собирать потребности пользователей. Этот подход облегчает миграцию данных: компании видят, какие отчеты нужны, и мигрируют ХД соответственно.

    Тем не менее, есть несколько важных шагов, которые придется учитывать при переносе вашего ХД, чтобы ваш заказчик был доволен.

    Шаг 1: Определить цели миграции

    Первоочередная задача, которую вы должны решить — определить цели миграции. Это нужно сделать, опираясь на проблемы, с которыми компания столкнулась. Это может быть, например, нехватка места для новых данных в ХД или необходимость ухода от западных технологий.

    Необходимо проанализировать, какие основные задачи закрывало старое ХД. Новое хранилище должно не только выполнять те же функции, но и обладать актуальной документацией и оптимизированной структурой без излишних данных. Если не решить эти задачи заранее, то вместо миграции вы будете заниматься рефакторингом: то есть поменяете код, но оставите старые ошибки.

    Шаг 2: Проверить качество данных

    Качество данных в ХД является одним из критических аспектов для получения консистентной информации, которой можно доверять. Несмотря на то, что существуют специализированные инструменты Data Quality, которые обеспечивают качество данных, необходимо помнить, что со 100% вероятностью какая-то информация в старое ХД заливалась из Excel, что-то подправлялось вручную, а что-то корректировалось прямо в интерфейсе. Это приводит к тому, что данные в старом и новом хранилищах не «сойдутся».

    Как этого избежать? Надо понять причины, почему появились внесистемные данные, а дальше внедрить комплексный подход к ведению информации. Внесистемные данные — это риски, которые могут и в дальнейшем приводить к ошибкам и вынуждать заниматься корректировкой данных.

    Если внесистемные данные были временным явлением, можно перенести их из старого ХД за прошлые периоды, то есть рассматривать старое ХД просто как источник исторических данных.

    Шаг 3: Провести предпроектное обследование

    До начала миграции стоит провести аудит старого ХД и четко задокументировать, какая функциональность у него останется. Возможно, имеет смысл оставить в нем исторические данные для того, чтобы при необходимости восстановить систему отчетности прошлых лет, при этом не перегружая новое ХД.

    Шаг 4: Выбрать модель данных

    Во многих проектах по миграции ХД стало «модно» использовать модель данных datavault. Однако надо помнить, что, помимо плюсов, у этой модели есть особенности, которые могут повлиять на скорость расчета витрин — большое количество таблиц, дополнительные джойны, которые раньше были не нужны.

    Поэтому при выборе модели для будущего ХД надо вспомнить о цели, ради которой оно строится. Если это просто хранение с возможным последующим масштабированием данных, то data vault подойдет. Однако если это подготовка агрегатов, витрин данных и аналитической отчетности, лучше делать комбинацию data vault с третьей нормальной формой.

    Шаг 5: Обучить команду

    От того, насколько команда разработки и поддержки мотивирована и готова заняться работой с новым ХД, зависит успех проекта миграции.

    Если в организации есть собственная сильная ИТ-команда, то можно строить ХД самостоятельно. Однако многие компании решают эту задачу приглашением консультантов-интеграторов или вендоров, которые уже реализовывали миграцию и проводят полноценное обучение.

    Куда мигрировать хранилища данных сегодня

    Сегодня выбор технологий для ХД в России не так велик — это может быть Greenplum, Hadoop или Spark, то есть решения на базе open source.

    Вне зависимости от того, что вы выберете, помните, что главное, что надо учитывать — это масштабируемость, скорость обработки и легкость интеграции с существующими системами при выборе платформы.

    К сожалению, нет «супертаблетки», которая поможет сделать отличное ХД: в каждом конкретном случае надо смотреть на цели и задачи. В любом случае важно помнить, что успех миграции определяется не только техническими решениями, но и четким пониманием бизнес-потребностей и организационной подготовленностью компании. Тщательное планирование и внимание к деталям могут обеспечить плавный переход к современным решениям для работы с данными.

    Остались вопросы? Пишите на data@korusconsulting.ru
    И подписывайтесь на наш телеграм-канал про аналитику и данные Analytics Now

    Логотип Корус Консалтинг

    Разделы пресс-центра

    Консультация от экспертов в области аналитики данных

    Оставьте заявку, и с вами свяжутся наши эксперты и проконсультируют вас в ближайшее время.

    Спасибо! Ваша заявка отправлена

    Мы свяжемся с вами в ближайшее время.

    Ошибка

    К сожалению, не смогли отправить вашу заявку, попробуйте ещё раз

    Есть вопросы?
    Пожалуйста, заполните все поля для обратной связи и задайте интересующий вопрос.
    Укажите компанию
    Укажите имя
    Укажите должность
    Укажите телефон
    Укажите e-mail
    Опишите задачу
    Благодарим за заявку!
    После обработки заявки с вами свяжется наш специалист.
    Не волнуйтесь, если пропустите звонок, мы обязательно перезвоним еще раз!
    Спасибо, хорошо