О проекте

Сравни

«Сравни» - финансовый маркетплейс, где пользователи сравнивают и оформляют финансовые и страховые продукты: кредиты, ипотеку, вклады, кредитные карты, ОСАГО, КАСКО и другие.

Финансовый маркетплейс «Сравни» использовал нагруженную аналитическую платформу и хранилище данных (DWH) на базе сервисов Yandex Cloud (Яндекс Облако). По мере роста объёмов данных и частоты загрузок снижалась скорость аналитики и увеличивалась стоимость эксплуатации сервисов.

Команда «ДАР» (ГК «КОРУС Консалтинг») провела архитектурный аудит хранилища данных (DWH) и подготовила план оптимизации для повышения производительности и надёжности платформы данных.

Ключевые задачи по аудиту хранилища данных (DWH)

При высокой интенсивности работы с данными компания «Сравни» столкнулась со следующими проблемами:

  • Нестабильность отдельных ETL‑процессов и задержки в цепочках загрузки.
  • Высокий CPU iowait при работе с Object Storage (S3).
  • Большое количество мелких файлов в S3 и недостаточная консолидация файлов (compaction).
  • Неоптимальная структура витрин и таблиц в ClickHouse.
  • Избыточная нагрузка на Greenplum при дедубликации и работе с метаданными.
  • Дополнительные издержки при передаче данных между компонентами платформы.

Цель проекта заключалась в проверке устойчивости и эффективности текущей архитектуры, выявлении узких мест и подготовки программы оптимизации и дальнейшего развития платформы данных.

Решение

Эксперты «ДАР» выполнили глубокий технический аудит архитектуры хранилища данных (DWH) совместно с командой «Сравни» и при поддержке специалистов Yandex Cloud. В фокусе проекта были стабильность ETL, оптимизация нагрузки, эффективность работы, а также повышение прозрачности и управляемости архитектуры.

В ходе аудита проектная команда осуществила следующие шаги:

  • Изучила архитектуру и взаимосвязи компонентов платформы данных.
  • Проанализировала ETL‑цепочки и паттерны загрузки, включая оркестрацию в Argo Workflows.
  • Разобрала логи и метрики Greenplum, ClickHouse, DataProc (Spark) и Object Storage (S3).
  • Оценила влияние настроек управляемых сервисов Yandex Cloud и инфраструктурных параметров (в т. ч. прерываемых ВМ).
  • Выявила узкие места в форматах данных, PXF‑выгрузках, работе с метаданными и хранением в S3.
  • Подготовила план оптимизаций с оценкой трудоёмкости и ожидаемого эффекта.
  • Предложила стратегический сценарий развития - Lakehouse‑архитектуру на базе Iceberg + Spark (с вариантами использования Trino).

Результаты проекта по аудиту хранилища данных (DWH)

По итогам проведенного аудита были сформулированы следующие рекомендации:

  • 14 ключевых рекомендаций по оптимизации архитектуры DWH и ETL: от настройки кодеков и устранения spill‑файлов до оптимизации PXF, партиций и order by в ClickHouse.
  • Для каждой рекомендации сделали оценку трудоёмкости и ожидаемый эффект (скорость, стабильность, стоимость).
  • Предложения по снижению нагрузки на Greenplum (в т. ч. за счёт работы с метаданными и перераспределения логики).
  • Стратегический вариант развития платформы данных: переход к Lakehouse на базе Iceberg и Spark, подготовка к ML/DS‑кейсам.

Ожидаемые эффекты от проекта:

  • Ускорение аналитики и снижение нагрузки на Greenplum.
  • Повышение стабильности ETL-процессов.
  • Снижение затрат на хранение и обработку данных в S3.
  • Повышение прозрачности и управляемости DWH-архитектуры.
  • Подготовка платформы к ML/DS-кейсам.
  • Улучшение времени реакции команды на инциденты и поломки.

Данный проект показывает, как повысить производительность и надёжность хранилища данных (DWH) в российском облаке Yandex Cloud без миграции и без кардинальной перестройки процессов.

Экспертный подход команды «ДАР» в части развития хранилища данных применим для компаний с нагруженной DWH‑платформой и эффективен в случаях, когда важно ускорить аналитику и ETL, снизить стоимость эксплуатации и подготовить фундамент для ML/DS‑задач без кардинальной перестройки процессов.

Уникальность проекта заключается в совместной работе сторон: интегратор/заказчик/платформа, сочетании технологий Greenplum + ClickHouse + Spark в одной архитектуре, глубоком техническом аудите: с разбором логов, метрик и процессов.

Продукты и технологии

В проекте анализировались и оптимизировались компоненты платформы данных в Yandex Cloud в разрезах:

  • Managed Service for Greenplum — DWH
  • Managed Service for ClickHouse — витрины и BI‑нагрузка
  • Yandex DataProc (Apache Spark) — обработка данных
  • Object Storage (S3) — слои raw / backup / compaction
  • Argo Workflows — оркестрация ETL

В рекомендациях по стратегическому развитию хранилища данных были рассмотрены варианты технологий: Trino, Apache Iceberg как основа для Lakehouse.

По итогу проекта команда «Сравни» получила не только ряд практических предложений по оперативному улучшению хранилища данных, но и стратегический сценарий комплексного развития системы аналитики.

Подробнее о проекте создания хранилища данных в компании «Сравни» в пресс-релизе.

Остались вопросы? Подписывайтесь на наш телеграм-канал про аналитику и данные Analytics Now

Спасибо! Ваша заявка отправлена

Мы свяжемся с вами в ближайшее время.

Ошибка

К сожалению, не смогли отправить вашу заявку, попробуйте ещё раз

Как бизнес на самом деле внедряет ИИ?
Оцениваем уровень зрелости ИИ в компаниях. Исследование КОРУС Консалтинг. Соберем честный срез по рынку! 
Участвовать
Делитесь ссылкой на опрос с коллегами