Аудит хранилища данных (DWH)
О проекте
Сравни
Финансовый маркетплейс «Сравни» использовал нагруженную аналитическую платформу и хранилище данных (DWH) на базе сервисов Yandex Cloud (Яндекс Облако). По мере роста объёмов данных и частоты загрузок снижалась скорость аналитики и увеличивалась стоимость эксплуатации сервисов.
Команда «ДАР» (ГК «КОРУС Консалтинг») провела архитектурный аудит хранилища данных (DWH) и подготовила план оптимизации для повышения производительности и надёжности платформы данных.
Ключевые задачи по аудиту хранилища данных (DWH)
При высокой интенсивности работы с данными компания «Сравни» столкнулась со следующими проблемами:
- Нестабильность отдельных ETL‑процессов и задержки в цепочках загрузки.
- Высокий CPU iowait при работе с Object Storage (S3).
- Большое количество мелких файлов в S3 и недостаточная консолидация файлов (compaction).
- Неоптимальная структура витрин и таблиц в ClickHouse.
- Избыточная нагрузка на Greenplum при дедубликации и работе с метаданными.
- Дополнительные издержки при передаче данных между компонентами платформы.
Цель проекта заключалась в проверке устойчивости и эффективности текущей архитектуры, выявлении узких мест и подготовки программы оптимизации и дальнейшего развития платформы данных.
Решение
Эксперты «ДАР» выполнили глубокий технический аудит архитектуры хранилища данных (DWH) совместно с командой «Сравни» и при поддержке специалистов Yandex Cloud. В фокусе проекта были стабильность ETL, оптимизация нагрузки, эффективность работы, а также повышение прозрачности и управляемости архитектуры.
В ходе аудита проектная команда осуществила следующие шаги:
- Изучила архитектуру и взаимосвязи компонентов платформы данных.
- Проанализировала ETL‑цепочки и паттерны загрузки, включая оркестрацию в Argo Workflows.
- Разобрала логи и метрики Greenplum, ClickHouse, DataProc (Spark) и Object Storage (S3).
- Оценила влияние настроек управляемых сервисов Yandex Cloud и инфраструктурных параметров (в т. ч. прерываемых ВМ).
- Выявила узкие места в форматах данных, PXF‑выгрузках, работе с метаданными и хранением в S3.
- Подготовила план оптимизаций с оценкой трудоёмкости и ожидаемого эффекта.
- Предложила стратегический сценарий развития - Lakehouse‑архитектуру на базе Iceberg + Spark (с вариантами использования Trino).
Результаты проекта по аудиту хранилища данных (DWH)
По итогам проведенного аудита были сформулированы следующие рекомендации:
- 14 ключевых рекомендаций по оптимизации архитектуры DWH и ETL: от настройки кодеков и устранения spill‑файлов до оптимизации PXF, партиций и order by в ClickHouse.
- Для каждой рекомендации сделали оценку трудоёмкости и ожидаемый эффект (скорость, стабильность, стоимость).
- Предложения по снижению нагрузки на Greenplum (в т. ч. за счёт работы с метаданными и перераспределения логики).
- Стратегический вариант развития платформы данных: переход к Lakehouse на базе Iceberg и Spark, подготовка к ML/DS‑кейсам.
Ожидаемые эффекты от проекта:
- Ускорение аналитики и снижение нагрузки на Greenplum.
- Повышение стабильности ETL-процессов.
- Снижение затрат на хранение и обработку данных в S3.
- Повышение прозрачности и управляемости DWH-архитектуры.
- Подготовка платформы к ML/DS-кейсам.
- Улучшение времени реакции команды на инциденты и поломки.
Данный проект показывает, как повысить производительность и надёжность хранилища данных (DWH) в российском облаке Yandex Cloud без миграции и без кардинальной перестройки процессов.
Экспертный подход команды «ДАР» в части развития хранилища данных применим для компаний с нагруженной DWH‑платформой и эффективен в случаях, когда важно ускорить аналитику и ETL, снизить стоимость эксплуатации и подготовить фундамент для ML/DS‑задач без кардинальной перестройки процессов.
Уникальность проекта заключается в совместной работе сторон: интегратор/заказчик/платформа, сочетании технологий Greenplum + ClickHouse + Spark в одной архитектуре, глубоком техническом аудите: с разбором логов, метрик и процессов.
Продукты и технологии
В проекте анализировались и оптимизировались компоненты платформы данных в Yandex Cloud в разрезах:
- Managed Service for Greenplum — DWH
- Managed Service for ClickHouse — витрины и BI‑нагрузка
- Yandex DataProc (Apache Spark) — обработка данных
- Object Storage (S3) — слои raw / backup / compaction
- Argo Workflows — оркестрация ETL
В рекомендациях по стратегическому развитию хранилища данных были рассмотрены варианты технологий: Trino, Apache Iceberg как основа для Lakehouse.
По итогу проекта команда «Сравни» получила не только ряд практических предложений по оперативному улучшению хранилища данных, но и стратегический сценарий комплексного развития системы аналитики.
Подробнее о проекте создания хранилища данных в компании «Сравни» в пресс-релизе.
Остались вопросы? Подписывайтесь на наш телеграм-канал про аналитику и данные Analytics Now