+7 (495) 230-01-45

Новые понятия в аналитике данных: что надо знать в 2021 году


Автор: TAdviserВремя прочтения: 9 минДата публикации: 31.08.2021
Теги: аналитика, подкаст, data fabric, dark data, DataOps, data-as-a-service

Обсудим пять понятий, которые хоть и были уже известны на рынке, но возможно забыты за лето. DIKW, DataOps, Data-as-a-Service, Data Fabric и dark data в подкасте Светланы Вронской, эксперта департамента аналитических решений ГК «КОРУС Консалтинг» для TAdviser. Обсудим пять понятий, которые хоть и были уже известны на рынке, но возможно забыты за лето. Итак, сегодня у нас 5D.

То, что 5 именно D, уверена, вас не удивляет – все эти аббревиатуры и понятия начинаются со слова дата: DIKW, DataOps, Data-as-a-Service, Data Fabric и dark data. Не пугайтесь изобилию английских терминов, сейчас со всем разберемся.

DIKW модель

«Где Жизнь, которую мы потеряли в жизни?

Где мудрость, которую, мы потеряли в знанье?

Где знанье, которое мы потеряли в сведеньях?»

Наверняка, вы удивлены, что я вдруг читаю стихи. Но именно в этом стихотворении англо-американского поэта 20 века Томаса Стернза Элиота видят начало модели DIKW. DIKW – это аббревиатура от Data (данные), Information (информация), Knowledge (знание) и Wisdom (мудрость). Модель DIKW — это не технология, а теоретическая основа для понимания того, какие этапы необходимо пройти для получения ценности от имеющихся данных. Сам термин ввел в 1989 году исследователь Рассел Акофф, занимавшийся теорией систем и менеджмента. А представитель Microsoft Дэйв Кэмпбелл позже применил это понятие к области визуализации данных и Больших данных.

DIKW, как вы поняли, состоит из следующих слоев:

Data — набор разрозненных фактов, символов (это могут быть числа, слова, изображения, видео), которые сами по себе не несут никакой ценности. Поэтому этот блок находится на дне иерархии и является материалом для обработки.

Второй слой - Information — объединённые по смыслу данные. В отличие от данных, информация несёт в себе пользу, потому что описывает процессы и явления. Она позволяет отвечать на базовые вопросы, но ее недостаточно для принятия каких-либо решений.

Дальше — Knowledge — мы отфильтровали информацию и переработали ее таким образом, что что-то поняли и можем сделать выводы. Но выше всего Wisdom, так как к данным добавляется понимание. И если предыдущие этапы помогали нам ответить на вопрос «что у нас на руках и как это можно использовать?», то мудрость заставляет нас задуматься «зачем?».

Вот вам простой аналог: вы едете по дороге на машине, видите, что впереди загорелся красный сигнал светофора и останавливаетесь. В модели DIKW это выглядит следующим образом: сырые данные – «красный свет», информация, то есть значение данных  – «Светофор на углу улиц Полевой и Тверской загорелся красным светом», знание, то есть использование этих данных в контексте – «я подъезжаю к светофору, который горит красным», мудрость, то есть практический вывод – «мне следует остановиться».

В переложении в область управления данными модель DIKW работает точно также. Более того, также она работает и в data science, только извлечением информации и выявлением инсайтов из данных занимаются алгоритмы машинного обучения.

DataOps

DataOps — это эквивалент DevOps для данных. И также, как целью DevOps является организация непрерывного процесса разработки и запуска программного обеспечения, цель DataOps - в организации непрерывного и беспрепятственного доступа к данным и извлечения из них полезной информации.

Можно сказать, что DataOps, известный уже около 6 лет, – это концепция, набор практик непрерывной интеграции данных между процессами, командами и системами.

Инфраструктура DataOps состоит из пяти основных элементов. Это технологии (прежде всего для работы с данными и источники данных), адаптивная архитектура, которая обеспечивает непрерывное совершенствование технологий, услуг и процессов. Дальше — обогащение данных для их точного анализа, методология DataOps для построения и развертывания аналитики и конвейеров данных и культура и люди. Наверно, последняя часть самая сложная, так как, чтобы DataOps заработала, надо создать культуру сотрудничества между командами, ответственными за эксплуатацию ИТ-инфраструктуры и облака, архитектуру и структуру данных, а также потребителями данных, например аналитиками, специалистами по обработке и бизнес-пользователями.

Сам процесс работы DataOps состоит из 5 шагов. До того, как к ним приступить, надо выполнить одно условие – собрать требования пользователей, определить цели проекта, кейсы использования данных и показатели эффективности. Собственно, как в любом проекте.

Первый шаг – сбор данных. Далее – структурирование данных, затем – анализ и обогащение данных. Четвертый шаг – внедрение моделей данных в приложения с помощью многократно используемых шаблонов. И последний шаг – автоматизация контроля качества.

Data-as-a-Service, данные как услуга

DaaS стал особенно популярным после того, как аналитики Gartner поместили эту услугу в свой Hype Cycle – список перспективных технологий. С 2017 год Data-as-a-Service из этого списка не уходит.

Данные как услуга – это модель дистрибуции данных или стратегия управления ими, когда пользователи не занимаются самостоятельно процессами сбора, хранения, интеграции, обработки и анализа данных, а передают эти задачи специализированным облачным провайдерам. Такой подход обеспечивает доставку пользователям данных, необходимым для их бизнеса, но при этом не требуя затрат на инфраструктуру и дополнительный штат сотрудников.

Модель данных как услуги работает в двух плоскостях: на основе объема (volume-based), когда оплата производится в зависимоcти от объема данных или услуги с оплатой за вызов, когда плата берется за каждый API-вызов потребителя к платформе поставщика данных. Вторая плоскость - на основе типов данных (type-based), которые заранее структурированы поставщиками по типам или атрибутам, например, географические, финансовые и исторические данные.

Согласно DaaS-парадигме, данные предоставляются пользователю по требованию, независимо от того, где находится территориально поставщик и потребитель информации. И безусловно, это может давать экономию процентов 10% в области управления данными, что для крупных организаций может вылиться в очень приличную сумму.

Конечно, как и для любого облачного решения, основными рискам DaaS-парадигмы являются безопасность и приватность данных. Риски утечки данных, обеспечение информационной безопасности, требования к обеспечению соответствия конфиденциальных данных, например требования к размещению персональных данных на серверах, которые находятся на территории государства – все это важные вопросы, которые должен решить провайдер DaaS.

Вообще DaaS подход использует ООН, Tesco, Nestle и многие другие компании, которым необходимо обеспечить доступ к большому объему данных и не тратить на это миллиарды.

Data Fabric

Data Fabric, которую почему-то часто неправильно переводят как «фабрику данных», никакого отношения к заводу не имеет. Data Fabric – это ткань данных, и представляет она собой цельную архитектуру управления информацией с полным и гибким доступом для работы с ней.

Это автономная экосистема, которая используется для максимально эффективного доступа к корпоративным данным. При помощи Data Fabric информацию легче искать, обрабатывать, структурировать и интегрировать с другими информационными системами.

Из чего же состоит Data Fabric? Во-первых, на каждом шаге обработки информации используется машинное обучение - от анализа получаемых данных до оптимизации алгоритмов их обработки. Кроме того, все потребители данных, все источники данных связаны сквозной интеграцией (в том числе с помощью баз и хранилищ данных и прочих Data Lake) через API. Вместо единого блока программного решения используется микро-сервисная архитектура. Основное предпочтение в ИТ-инфраструктуре отдается облачным решениям, информационные потоки оркестрируются, а качество информации повышается после унификации и виртуализации. Дополнительно, к данным легко получить доступ и обеспечивается безопасность этого доступа для каждой из групп пользователей.

Архитектура Data Fabric работает в концепции DataOps, о которой мы сегодня уже говорили. Быстро организуется реагирование на любые изменения в данных, повышается уровень прогнозирования, оптимизируются процессы хранения, обработки и обслуживания ресурсов.

Отличительная характеристика Data Fabric – это активное применение технологий Больших данных и искусственного интеллекта, в частности, машинного обучения для построения и оптимизации алгоритмов управления и практического использования данных. Кроме того, концепция Data Fabric дополнена семантическими графами, которые позволяют определять, стандартизировать и согласовывать значение всех входящих данных в бизнес-терминах, понятных для конечных пользователей.

Говоря просто, ткань данных – это система на уровне всей вашей организации, где всё подчиненно данным и выводам на их основе. Да, ее трудно построить и для ее развертывания и создания непрерывных конвейеров автоматического сбора и обработки информационных пакетов и потоков необходимы совместные усилия всех профильных ИТ-специалистов. Но только те компании, которые смогут это реализовать, будут получать от своих данных ту самую Wisdom, мудрость, о которой мы говорили в концепции DIKW.

Dark data

Понятие темных данных ввели аналитики Gartner и определили их как информационные активы, которые компания собирает, обрабатывает и хранит на постоянной основе, но обычно не использует (например, для анализа, выявления взаимосвязей факторов и прямой монетизации). Также как с темной материей в физике, dark data зачастую – большая часть хранимых в компании данных. Многие хранят темные данные только для того, что следовать требованиям регулятора – персональные данные, например. Причинами хранения неиспользуемых данных могут быть необходимость ведения архивов. А некоторые организации считают, что скрытые данные могут быть им полезны в будущем, когда появятся более совершенные технологии аналитики и бизнес-аналитики.

При этом стоимость хранения и обеспечение безопасности этих данных больше, чем их ценность. А данных таких море. По заявлению одного из профессоров Университета Карнеги Меллон Рахула Теланга, в общем объеме данных темных может быть 90%.

В промышленном контексте темные данные могут включать информацию, собранную датчиками и телематическими устройствами. Но опять же – почему-это эти данные никому не нужны. IBM приводит в пример данные с датчиков и прочих устройств, и говорит, что 90% этих данных никогда не используются.

В общем, темные данные — это данные, которых у вас по сути нет. И пока компания не придумает инструменты, которые помогут извлекать инсайты из абсолютно каждого кусочка информации, ни о какой полноценной ткани данных, ни о какой последней ступени в модели DIKW говорить не имеет смысла.

Источник: TAdviser

Закажите бесплатную консультацию эксперта

Читайте также