Дата публикации

31.08.2021

Содержание

    Обсудим пять понятий, которые хоть и были уже известны на рынке, но возможно забыты за лето. DIKW, DataOps, Data-as-a-Service, Data Fabric и dark data в подкасте Светланы Вронской, эксперта департамента аналитических решений ГК «КОРУС Консалтинг» для TAdviser. Обсудим пять понятий, которые хоть и были уже известны на рынке, но возможно забыты за лето. Итак, сегодня у нас 5D.

    То, что 5 именно D, уверена, вас не удивляет – все эти аббревиатуры и понятия начинаются со слова дата: DIKW, DataOps, Data-as-a-Service, Data Fabric и dark data. Не пугайтесь изобилию английских терминов, сейчас со всем разберемся.

    DIKW модель

    «Где Жизнь, которую мы потеряли в жизни?

    Где мудрость, которую, мы потеряли в знанье?

    Где знанье, которое мы потеряли в сведеньях?»

    Наверняка, вы удивлены, что я вдруг читаю стихи. Но именно в этом стихотворении англо-американского поэта 20 века Томаса Стернза Элиота видят начало модели DIKW. DIKW – это аббревиатура от Data (данные), Information (информация), Knowledge (знание) и Wisdom (мудрость). Модель DIKW — это не технология, а теоретическая основа для понимания того, какие этапы необходимо пройти для получения ценности от имеющихся данных. Сам термин ввел в 1989 году исследователь Рассел Акофф, занимавшийся теорией систем и менеджмента. А представитель Microsoft Дэйв Кэмпбелл позже применил это понятие к области визуализации данных и Больших данных.

    DIKW, как вы поняли, состоит из следующих слоев:

    Data — набор разрозненных фактов, символов (это могут быть числа, слова, изображения, видео), которые сами по себе не несут никакой ценности. Поэтому этот блок находится на дне иерархии и является материалом для обработки.

    Второй слой - Information — объединённые по смыслу данные. В отличие от данных, информация несёт в себе пользу, потому что описывает процессы и явления. Она позволяет отвечать на базовые вопросы, но ее недостаточно для принятия каких-либо решений.

    Дальше — Knowledge — мы отфильтровали информацию и переработали ее таким образом, что что-то поняли и можем сделать выводы. Но выше всего Wisdom, так как к данным добавляется понимание. И если предыдущие этапы помогали нам ответить на вопрос «что у нас на руках и как это можно использовать?», то мудрость заставляет нас задуматься «зачем?».

    Вот вам простой аналог: вы едете по дороге на машине, видите, что впереди загорелся красный сигнал светофора и останавливаетесь. В модели DIKW это выглядит следующим образом: сырые данные – «красный свет», информация, то есть значение данных  – «Светофор на углу улиц Полевой и Тверской загорелся красным светом», знание, то есть использование этих данных в контексте – «я подъезжаю к светофору, который горит красным», мудрость, то есть практический вывод – «мне следует остановиться».

    В переложении в область управления данными модель DIKW работает точно также. Более того, также она работает и в data science, только извлечением информации и выявлением инсайтов из данных занимаются алгоритмы машинного обучения.

    DataOps

    DataOps — это эквивалент DevOps для данных. И также, как целью DevOps является организация непрерывного процесса разработки и запуска программного обеспечения, цель DataOps - в организации непрерывного и беспрепятственного доступа к данным и извлечения из них полезной информации.

    Можно сказать, что DataOps, известный уже около 6 лет, – это концепция, набор практик непрерывной интеграции данных между процессами, командами и системами.

    Инфраструктура DataOps состоит из пяти основных элементов. Это технологии (прежде всего для работы с данными и источники данных), адаптивная архитектура, которая обеспечивает непрерывное совершенствование технологий, услуг и процессов. Дальше — обогащение данных для их точного анализа, методология DataOps для построения и развертывания аналитики и конвейеров данных и культура и люди. Наверно, последняя часть самая сложная, так как, чтобы DataOps заработала, надо создать культуру сотрудничества между командами, ответственными за эксплуатацию ИТ-инфраструктуры и облака, архитектуру и структуру данных, а также потребителями данных, например аналитиками, специалистами по обработке и бизнес-пользователями.

    Сам процесс работы DataOps состоит из 5 шагов. До того, как к ним приступить, надо выполнить одно условие – собрать требования пользователей, определить цели проекта, кейсы использования данных и показатели эффективности. Собственно, как в любом проекте.

    Первый шаг – сбор данных. Далее – структурирование данных, затем – анализ и обогащение данных. Четвертый шаг – внедрение моделей данных в приложения с помощью многократно используемых шаблонов. И последний шаг – автоматизация контроля качества.

    Data-as-a-Service, данные как услуга

    DaaS стал особенно популярным после того, как аналитики Gartner поместили эту услугу в свой Hype Cycle – список перспективных технологий. С 2017 год Data-as-a-Service из этого списка не уходит.

    Данные как услуга – это модель дистрибуции данных или стратегия управления ими, когда пользователи не занимаются самостоятельно процессами сбора, хранения, интеграции, обработки и анализа данных, а передают эти задачи специализированным облачным провайдерам. Такой подход обеспечивает доставку пользователям данных, необходимым для их бизнеса, но при этом не требуя затрат на инфраструктуру и дополнительный штат сотрудников.

    Модель данных как услуги работает в двух плоскостях: на основе объема (volume-based), когда оплата производится в зависимоcти от объема данных или услуги с оплатой за вызов, когда плата берется за каждый API-вызов потребителя к платформе поставщика данных. Вторая плоскость - на основе типов данных (type-based), которые заранее структурированы поставщиками по типам или атрибутам, например, географические, финансовые и исторические данные.

    Согласно DaaS-парадигме, данные предоставляются пользователю по требованию, независимо от того, где находится территориально поставщик и потребитель информации. И безусловно, это может давать экономию процентов 10% в области управления данными, что для крупных организаций может вылиться в очень приличную сумму.

    Конечно, как и для любого облачного решения, основными рискам DaaS-парадигмы являются безопасность и приватность данных. Риски утечки данных, обеспечение информационной безопасности, требования к обеспечению соответствия конфиденциальных данных, например требования к размещению персональных данных на серверах, которые находятся на территории государства – все это важные вопросы, которые должен решить провайдер DaaS.

    Вообще DaaS подход использует ООН, Tesco, Nestle и многие другие компании, которым необходимо обеспечить доступ к большому объему данных и не тратить на это миллиарды.

    Data Fabric

    Data Fabric, которую почему-то часто неправильно переводят как «фабрику данных», никакого отношения к заводу не имеет. Data Fabric – это ткань данных, и представляет она собой цельную архитектуру управления информацией с полным и гибким доступом для работы с ней.

    Это автономная экосистема, которая используется для максимально эффективного доступа к корпоративным данным. При помощи Data Fabric информацию легче искать, обрабатывать, структурировать и интегрировать с другими информационными системами.

    Из чего же состоит Data Fabric? Во-первых, на каждом шаге обработки информации используется машинное обучение - от анализа получаемых данных до оптимизации алгоритмов их обработки. Кроме того, все потребители данных, все источники данных связаны сквозной интеграцией (в том числе с помощью баз и хранилищ данных и прочих Data Lake) через API. Вместо единого блока программного решения используется микро-сервисная архитектура. Основное предпочтение в ИТ-инфраструктуре отдается облачным решениям, информационные потоки оркестрируются, а качество информации повышается после унификации и виртуализации. Дополнительно, к данным легко получить доступ и обеспечивается безопасность этого доступа для каждой из групп пользователей.

    Архитектура Data Fabric работает в концепции DataOps, о которой мы сегодня уже говорили. Быстро организуется реагирование на любые изменения в данных, повышается уровень прогнозирования, оптимизируются процессы хранения, обработки и обслуживания ресурсов.

    Отличительная характеристика Data Fabric – это активное применение технологий Больших данных и искусственного интеллекта, в частности, машинного обучения для построения и оптимизации алгоритмов управления и практического использования данных. Кроме того, концепция Data Fabric дополнена семантическими графами, которые позволяют определять, стандартизировать и согласовывать значение всех входящих данных в бизнес-терминах, понятных для конечных пользователей.

    Говоря просто, ткань данных – это система на уровне всей вашей организации, где всё подчиненно данным и выводам на их основе. Да, ее трудно построить и для ее развертывания и создания непрерывных конвейеров автоматического сбора и обработки информационных пакетов и потоков необходимы совместные усилия всех профильных ИТ-специалистов. Но только те компании, которые смогут это реализовать, будут получать от своих данных ту самую Wisdom, мудрость, о которой мы говорили в концепции DIKW.

    Dark data

    Понятие темных данных ввели аналитики Gartner и определили их как информационные активы, которые компания собирает, обрабатывает и хранит на постоянной основе, но обычно не использует (например, для анализа, выявления взаимосвязей факторов и прямой монетизации). Также как с темной материей в физике, dark data зачастую – большая часть хранимых в компании данных. Многие хранят темные данные только для того, что следовать требованиям регулятора – персональные данные, например. Причинами хранения неиспользуемых данных могут быть необходимость ведения архивов. А некоторые организации считают, что скрытые данные могут быть им полезны в будущем, когда появятся более совершенные технологии аналитики и бизнес-аналитики.

    При этом стоимость хранения и обеспечение безопасности этих данных больше, чем их ценность. А данных таких море. По заявлению одного из профессоров Университета Карнеги Меллон Рахула Теланга, в общем объеме данных темных может быть 90%.

    В промышленном контексте темные данные могут включать информацию, собранную датчиками и телематическими устройствами. Но опять же – почему-это эти данные никому не нужны. IBM приводит в пример данные с датчиков и прочих устройств, и говорит, что 90% этих данных никогда не используются.

    В общем, темные данные — это данные, которых у вас по сути нет. И пока компания не придумает инструменты, которые помогут извлекать инсайты из абсолютно каждого кусочка информации, ни о какой полноценной ткани данных, ни о какой последней ступени в модели DIKW говорить не имеет смысла.

    Источник: TAdviser

    Остались вопросы? Пишите на data@korusconsulting.ru
    И подписывайтесь на наш телеграм-канал про аналитику и данные Analytics Now

    Логотип Корус Консалтинг
    25
    ЛЕТ
    притягиваем бизнесы,
    энергию, людей
    Узнать наш секрет

    Консультация от экспертов в области аналитики данных

    Оставьте заявку, и с вами свяжутся наши эксперты и проконсультируют вас в ближайшее время.

    Спасибо! Ваша заявка отправлена

    Мы свяжемся с вами в ближайшее время.

    Ошибка

    К сожалению, не смогли отправить вашу заявку, попробуйте ещё раз

    Все новости в Analytics Now!

    Хотите быть в курсе последних новостей из мира аналитики и данных?

    Подписывайтесь на наш канал в Telegram, в котором мы делимся самыми интересными новостями по теме аналитики данных, ИИ, ML. Рассказываем, как получить из данных максимум пользы для бизнеса.
    Подписаться!
    Есть вопросы?
    Пожалуйста, заполните все поля для обратной связи и задайте интересующий вопрос.
    Укажите компанию
    Укажите имя
    Укажите должность
    Укажите телефон
    Укажите e-mail
    Опишите задачу
    Благодарим за заявку!
    После обработки заявки с вами свяжется наш специалист.
    Не волнуйтесь, если пропустите звонок, мы обязательно перезвоним еще раз!
    Спасибо, хорошо