В России отсутствует законодательно закрепленное определение больших данных (big data), но обычно под ними понимают разнообразные инструменты, подходы и методы обработки данных, направленные на решение конкретных задач. К примеру, на создание персонализированных предложений или оптимизацию бизнес-подразделений. Эти задачи решались и раньше, но теперь благодаря big data выполнять их можно гораздо проще, лучше, быстрее. Более того, их решение стало приносить бизнесу ощутимую прибыль.
Еще двадцать лет назад специалисты сидели и вручную строили в соответствии с теорией вероятностей различные сценарии, сравнивали предыдущие периоды продаж и на основании этого прогноза давали рекомендации клиентам. Например, никто не знал, как предложить человеку нужную музыку. Попытки понять предпочтения клиентов предпринимались — анализировались музыкальные рейтинги и продажи альбомов, — но картина все равно получа- лась неточная. Помимо этого требовалось много времени, чтобы проверить на практике реалистичность полученных прогнозов. Приходилось изучать привычки, предпочтения людей. На это иногда уходили годы. Сейчас предвосхитить желания клиента можно буквально за несколько часов благодаря прогнозам на основе аналитики больших данных, что значительно снижает затраты компании и повышает уровень персонализации.
Огромный эффект бизнесу обеспечивает поиск локации для открытия новой точки продаж при помощи технологий машинного обучения. Такие сервисы позволяют оценить потенциал локаций в интересующем городе/районе и найти ту из них, где товарооборот будет максимальным, а каннибализация существующих точек — минимальной. Многие крупные ритейлеры до сих пор принимают решения такого рода на основании экспертных оценок отдельных менеджеров. Однако технологии машинного обучения позволяют компаниям снизить инвестиционные риски при оценке новой локации до пяти раз.
Еще один пример того, как заметно улучшают жизнь большие данные, — использование big data решений в финансовой области. Раньше поиск аномалий в закупках, трансакциях и других операциях занимал у крупного банка дни или недели. Теперь продукты big data могут вылавливать аномалии в считаные секунды.
Новые возможности для банков открыли и решения, автоматизирующие учной труд, например деятельность андеррайтеров в банках. Раньше проверка занятости, валидация анкетных данных и прочие проверки делались полностью вручную. Сегодня значимая доля проверок поддается автоматизации за счет синергии технологий машинного обучения и поведенческих данных. В результате прибыль страхового портфеля увеличивается на 5–10%.
Примеры применения продуктов big data в других областях тоже впечатляют. На искусственный интеллект перешла сейчас, например, вся сортировка почты. Другой пример — автоматическое планирование маршрутов перевозок, причем от обычных навигаторов с учетом пробок до оптимизации логистической цепи и путей поставок крупных компаний доставки. Посылки стали приходить быстрее, а время маршрута можно планировать более точно.
Не менее наглядный пример — управление производством, выявление брака. Например, брак при производстве бутылок или же гнилые овощи раньше выявлял специальный человек, который сбрасывал бракованную продукцию с конвейера. Сейчас системы компьютерного зрения делают это автоматически и в десятки раз быстрее.
Вместе с тем ежегодный темп роста рынка больших данных в России неплохой. С 2015 года он составляет 12%, отмечает исполнительный директор Ассоциации больших данных Алексей Нейман. Все больше компаний начинают использовать сервисы на основе аналитики больших данных, говорит директор по аналитике и алгоритмам компании oneFactor Максим Воеводский.
Осложняют развитие в России рынка больших данных главным образом стоимость решений — десятки миллионов рублей, а также сложность внедрения. Вместе с внедрением таких продуктов в компаниях идут обновление и замещение устаревших систем. Эти процессы влияют как на IT-ландшафт, так и на данные. В частности, появляются новые источники, что приводит к сложностям внедрения продуктов, основанных на характере данных.
Развитию big data в России мешает также недостаточная степень автоматизации бизнес-процессов в компаниях, а именно отсутствие некоторых базовых IT-решений, необходимых для эффективной работы решений с технологиями машинного обучения, например CRM- систем. Еще один барьер — нехватка квалифицированных кадров в области big data.
«Зачастую при решении задачи выбор данных определяется исключительно их доступностью и качеством, поскольку в любых данных благодаря использованию методов ИИ можно выделить разного рода взаимосвязи», — пояснил «Эксперту» руководитель направления «Большие данные» компании «Техносерв» Денис Рыбченко. В конечном счете все данные приводятся к некоторым цифрам, описывающим объект или ситуацию.
«Если это текст, то может браться как количество слов “машина”, так и более сложные, иногда не объяснимые словами свойства текста. Если говорят про изображение, то опять же берется числовое описание форм, цветов и фигур, которые на нем присутствуют. Данное числовое описание — его называют embedding — и позволяют получить, в частности, нейронные сети. Таким образом, любой оцифрованный вид данных потенциально подлежит анализу, вопрос только в том, как применительно к нему поставить задачу: соотнести изображения и класс, описать нужные свойства текстов, иными словами, разметить обучающую выборку», — рассказал «Эксперту» архитектор машинного обучения цифровой лаборатории Softline Николай Князев.
Руководитель направления продвинутой аналитики департамента аналитических решений ГК «Корус Консалтинг» Александр Зенькович привел нам конкретные примеры данных, которые могут быть проанализированы.
«Если мы хотим оптимизировать продажи в рознице, в дело идут чековые данные (для анализа покупательской картины) и фотографии продуктов на витрине (для оценки их качества здесь и сейчас, более точного прогнозирования спроса). Фото и видео помогают отслеживать процессы, например видеть брак на производстве или отсутствие каски на голове рабочего. Поведение клиентов в интернете тоже используется во множестве задач: автоматическом поиске похожих товаров, подборе жилья, оценке музыкальных и видеопредпочтений», — рассказал Александр Зенькович.
В зависимости от «носителя» данных и целей аналитики последняя разделяется на несколько видов:
— обработка естественного языка (всем знакомая «Сири» в iOS), помогающая перевести аудиотрек в текст, выделить из него смыслы, эмоции, по необходимости сформулировать ответную по смыслу реакцию, облачить ее во фразу и воспроизвести;
— обработка фото и видео (FaceID в iOS, распознавание текста на фото страницы книги, номер автомобиля нарушителя в «письмах счастья», огромное количество фотоприложений с фильтрами, спецэффекты в фильмах и проч.);
— отбор брака на конвейере с камерой;
— обработка потока структурированных данных в реальном времени (системы безопасности, алгоритмы торговли, динамическое ценообразование, анти- фрод, системы активной стабилизации и проч.);
— обработка потока данных (цифровой след, датчики, IoT и проч.) для выявления тренда, экстраполяции наблюдаемого процесса, формирование реакции на тренд;
— обработка структурированных данных.
Таким образом, учитывая, насколько разнообразны сегодня поддающиеся аналитике данные, обладать ими могут очень многие предприятия.
«На базе комплекса этих решений IT- службы организуют наиболее подходящий для компании аналитический ландшафт, так как все решения уникальны для сферы бизнеса и инфраструктуры компании. Так, решения, созданные в разных компаниях, даже в разных де- партаментах одной организации, при помощи одних и тех же инструментов, могут разительно отличаться и не быть взаимозаменяемыми. В конце концов, и всем известный Excel — отличный инструмент для анализа начального уровня», — рассказал «Эксперту» Алексей Нейман.
Стоимость решений для создания аналитики может отличаться от заказчика к заказчику. «Если заказчик хочет получить максимально экономичный вариант и у него нет жестких ограничений или предпочтений по вендорам, то решение строится исключительно на опенсорс-компонентах. В таком случае можно уложиться в 15–20 миллионов рублей. Но среднюю стоимость, учитывающую внедрение и поддержку в течение года, я бы оценил в 50 миллионов рублей. И еще обязательно нужно учитывать необходимость инвестиций не только в поддержку, но и в дальнейшее развитие решения», — отмечает Денис Рыбченко.
Таким образом, организовать работу с большими данными посильно практически для любого бизнеса, однако не так много организаций имеют возможность получить качественную аналитику.
Классическая реляционная СУБД — это система, данные в которой находятся и обрабатываются логически «на одном сервере» в одной базе с заданной структурой, и для работы с данными используется язык SQL.
«Данная система — наиболее широко и давно применяемая технология работы с данными, где можно назвать таких производителей, как Oracle, Microsoft SQL и даже MS Ассеss, входящий в пакет стандартных офисных приложений», — отмечает Алексей Нейман.
В случае с горизонтально масштабируемым хранилищем данных речь идет о системе, где данные распределяются по большому количеству серверов, те могут не иметь заранее определенной структуры, при этом в хранилище можно добавлять новые серверы. Анализ данных происходит на всех серверах параллельно, результат параллельных вычислений консолидируется.
«Так работает Hadoop, и для подобных вычислений была придумана технология MapReduce», — поясняет Алексей Нейман.
Системы работы с данными in-memory позволяют создавать и анализировать структурированные и слабоструктурированные данные в режиме реального времени с высокой производительностью.
«Это системы, сочетающие в себе достоинства OLTP (трансакционных) и OLAP (аналитических) систем, являющиеся обработчиком так называемых горячих, то есть наиболее актуальных на настоящий момент данных. Примером такой системы может служить SAP HANA», — говорит Алексей Нейман.
Все перечисленные системы, по его словам, используются лидерами как зарубежного, так и российского рынка. Hadoop считается наименее затратным способом организации неструктурированного хранилища данных, он практически не ограничен по объемам, но сильно ограничен по производительности вычислений. Реляционные базы данных отлично работают с хорошо структурированной индексированной информацией, но производительность падает при увеличении обрабатываемых объемов данных и количества пользователей, конкурирующих за запись и анализ данных. Вычисления in-memory — самый затратный способ хранения и обработки данных, но на порядок выигрывает в производительности.
«IT-службы умело комбинируют для аналитиков все эти технологии, обеспечивая максимум аналитических возможностей для своих сотрудников при минимуме затрат на это», — рассказывает Алексей Нейман.
«Для этого мы сначала делаем прототип решения, чтобы на нем собрать всевозможные вопросы и проблемы до внедрения основного решения. Для успешного построения прототипа необходима совместная работа специалиста с опытом внедрения систем машинного обучения и эксперта из бизнеса, именно от успеха их совместной работы зависит результат проекта», — говорит Николай Князев.
Далее с данными, по словам Алексея Неймана, происходит следующее: сохранение в хранилище; формирование на их основе бизнес-гипотезы; поиск подходящих под гипотезу данных; размещение данных; подготовка — чистка, обогащение, «причесывание», гармонизация данных для эксперимента; проведение эксперимента, подтверждение гипотезы; тестирование полученной модели (аналитики), валидация ее устойчивости; планирование и интеграция модели (аналитики) в бизнес-процесс; обеспечение необходимого потока данных в бизнес- процесс; внедрение модели (аналитики) в бизнес-процесс; периодическая валидация корректности работы модели.
Получение качественной модели зависит не только от наличия большого объема данных, но и от ошибок, возникающих на каждом из этапов обработки.
«Речь, например, идет об ошибках выборки, связанных напрямую с источниками больших данных. Априори не существует идеальных источников данных, особенно большое количество про- пусков/ошибок наблюдается при работе со слабоструктурированными источниками данных, такими как социальные сети, логи событий, click-streaming, фото, видео и так далее. При построении моделей для обработки подобных данных часто применяются подходы на базе нейронных сетей, которые, с одной стороны, показывают впечатляющую точность, а с другой — сильно зависимы от стабильности и качества входного потока данных. При существенном изменении заполняемости входных параметров нейронные сети могут отрабатывать [данные на входе] непредсказуемым образом, что может повлечь за собой серьезные последствия», — пояснил Денис Рыбченко.
Сложности с извлечением и обработкой данных также возникают из-за их огромных объемов.
«Обычно для этого используются распределенные системы обработки информации. При обработке информации подобным образом, с одной стороны, повышается скорость обработки информации, а с другой — повышается отказоустойчивость системы в целом, поскольку обработка производится на разных узлах (серверах), а значит, при выходе из строя отдельного узла обработка не остановится и возможные потери данных будут минимальны. Однако при постоянном росте объема хранимой базы требуется разработка дополнительных инженерных решений по оптимизации и масштабированию распределенной системы обработки информации», — отмечает Денис Рыбченко.
При работе с данными также могут возникать ошибки, связанные с корреляцией информации из разных источников.
«Порой из-за запутанной причинно- следственной связи невозможно однозначно предсказать, как в результате поведет себя модель прогноза какого- либо события. И главное, при огромных объемах хранимых данных на источнике может случиться их частичная потеря, и, соответственно, выборка данных будет неполной и несбалансированной. Но выявить факты потери данных очень и очень сложно из-за их объема. Поэтому работа подобных решений зависит как от качества самих данных, включая их применимость и полноту, так и от корректности реализации алгоритмов их обработки, а это уже задача инженеров данных, специалистов по работе с ними и аналитиков», — поясняет Денис Рыбченко.
По словам руководителя направления big data компании КРОК Егора Осипова, под качеством данных подразумевают то, насколько бизнес может им доверять, насколько они отражают реальность: «Именно поэтому тематика качества данных сейчас так популярна — для большинства компаний, где нет выстроенной культуры работы с данными, это острый вопрос».
Однако не все игроки рынка придерживаются такого мнения. Так, руководитель IT-блока банка «Открытие» Сергей Русанов считает, что качественные или некачественные данные — это вопрос цели обработки. «Для одних моделей достаточен приблизительный подход, для других, например для выявления мошенничества или определения дефолта, нужны “чистые” данные, чтобы были точные предсказания и минимальное количество ложных срабатываний», — поясняет Сергей Русанов.
Таким образом, то, насколько качественно собираются данные для аналитики, ничуть не менее важно, чем то, как она создается.
В качестве примеров прогнозов можно привести прогнозы поведения пользователя на сайте, предпочтений покупателя на основе информации социальных сетей, количества проданной продукции, оттока клиентов. На основе прогнозов строятся различные рекомендательные модели для клиентов и системы поддержки принятия решений для поставщиков.
Как работают рекомендательные системы можно понять на примере сервисов компании «Норбит». «Наши системы подсказывают, что еще можно предложить клиентам. Покупатель приходит на сайт ювелирного магазина за кольцом. В момент оплаты сервис предлагает дополнительные продукты, которые могут заинтересовать покупателя и которые с наибольшей вероятностью будут добавлены в корзину», — поясняет руководитель направления «Машинное обучение» «Норбит» Дмитрий Тимаков.
Аналогично работают рекомендательные сервисы банков.
«Представьте, что банк запускает новый продукт. Чтобы рассказать о нем, компания проводит массовую рассылку с одним и тем же содержанием — описанием, стоимостью и так далее. Пользователи получают одинаковые письма, хотя для многих из них предложение даже нерелевантно. Аналитика, во-первых, позволяет точно определить сегмент аудитории, потенциально заинтересо- ванный в новом продукте. Во-вторых, анализ позволяет выделить самые интересные для пользователей особенности предложения, адаптировать текст, иллюстрации и тональность сообщений — обратиться к клиентам на понятном языке. В итоге пользователи получают рассылку с релевантным предложением, в котором компания обращается персонально к ним. Конверсия и продажи продукта растут», — рассказывает руководитель аналитических сервисов Predict Mail.ru Group Роман Стятюгин.
Как помогают рекомендательные сервисы при технологическом процессе, можно понять на примере решения Softline. «Наш продукт AILine прогнозирует результат технологического процесса и выдает рекомендации. Например, повар готовит борщ, он покупает свеклу, мясо, кладет соль, доводит все до определенной температуры. Система определяет, сколько нагревался суп, какая используется соль, какие продукты, и сообщает, сколько его оптимально варить, а если есть риск пригорания из-за плохой посуды или сильного огня, сообщит об этом», — рассказал «Эксперту» Николай Князев.
«Конечно, бывают и более крупные проекты, и менее масштабные, но подавляющее большинство попадает в этот диапазон. К этой цифре также стоит прибавить стоимость лицензий и “железа”, которые варьируются в еще большем диапазоне. Но обычно эта цифра сравнима со стоимостью работ», — поясняет Егор Осипов.
Цена big data решений зависит от того, насколько детальны прогнозы, рекомендации и оценки, которые благодаря этому можно получить. Есть и другие компоненты. Все составляющие факторы игроки рынка не называют, однако суть ценообразования из их слов становится понятна.
«Аналитические продукты и сервисы призваны улучшить бизнес-показатели компании, которая их внедряет. Это может быть дополнительная выручка или существенная экономия, оптимизация затрат. Соответственно, ценность аналитических решений полностью завязана на той пользе, которую она приносит клиенту», — объясняет Роман Стятюгин.
Максим Воеводский говорит о формировании цены на решения big data более конкретно, отмечая, что у продуктов oneFactor она определяется как доля от эффекта использования сервиса компании на бизнес заказчика, но не ниже себестоимости.
«Для этого мы часто проводим бес- платное тестирование наших продуктов, чтобы заказчик мог точно оценить, насколько эффективны наши продукты для его бизнеса. Если заказчик не может оценить сам, тогда мы помогаем: для этого у нас в штате есть индустриальные консультанты с многолетним опытом работы в соответствующих отраслях. После завершения тестирования и оценки мы назначаем стоимость, в среднем равную двадцати процентам от эффекта для бизнеса заказчика. Бывают случаи, когда оказывается, что двадцать процентов эффекта для бизнеса заказчика — это ниже нашей себестоимости, тогда мы в такие проекты не идем», — рассказал «Эксперту» Максим Воеводский.
По словам Дмитрия Тимакова, стоимость продуктов ЛАНИТ зависит от сложности интеграции с источниками данных, требований по быстродействию (например, модель должна дать ответ либо через сутки, либо за одну секунду), необходимой точности работы моделей. На цену продуктов big data также влияют количество данных заказчика и сложность разработки, отмечает Александр Зенькович.
Иногда, например в случае геоаналитики сотового оператора Tele2, стоимость продукта зависит от технического задания.
«Проанализировать загрузку автодорог большого региона, маятниковую миграцию жителей Подмосковья или помочь бизнесу построить оптимальную логистику внутри одного региона — совершенно разные задачи, которые требуют разных трудозатрат. Отсюда разная стоимость. Конечно, есть и массовые продукты, стоимость которых фиксирована. Один из них — платформа “SMS-Таргет”, которая дает бизнесу возможность настраивать и отправлять таргетированные SMS-рассылки. Отправка одного сообщения для бизнес-клиента стоит в среднем два-три рубля и зависит от объема рассылки и выбранных таргетов», — рассказал директор по аналитике больших данных Tele2 Антон Мерзляков.
Помимо продуктов big data свою цену имеют и специалисты, необходимые для аналитики больших данных. Их нужно много. По оценке Google, для успешной работы отдела больших данных требуются следующие специалисты:
— аналитик данных (позволяющий найти инсайды в данных);
— инженер данных (организующий систему хранения);
— статистик (проверяющий гипотезы);
— исследователь (выдвигающий гипотезы в отношении данных);
— data scientist (проверяющий применимость алгоритмов машинного обучения);
— ML-инженер (внедряет алгоритмы для использования на практике);
— специалист по предметной области, ставящий задачу;
— представитель бизнеса, принимающий решения (product owner).
«На практике эти роли могут сходиться в одном человеке. Стоимость времени опытных специалистов составляет около пяти тысяч рублей в час», — проинформировал Николай Князев.
«По моим оценкам, для Москвы стоимость средней команды data scientist из пяти человек составляет около миллиона рублей в месяц. Для Санкт-Петербурга эта цифра меньше на 20 процентов, а для регионов — на 50 процентов и более», — рассказал Денис Рыбченко.
Как видно, нанять специалистов для работы с данными может выйти для бизнеса в копеечку. Именно поэтому он зачастую стоит перед дилеммой: делать аналитику самому или покупать ее?
«Если компания сама генерирует огромное количество данных, на которых эту аналитику нужно делать, то стоит задуматься о внедрении у себя технологий их обработки и разработки моделей и аналитики. Если основные данные для повышения эффективности деятельности компании лежат за внутренним периметром, то стоит задуматься о покупке аналитических сервисов “под ключ” и минимизации затрат на собственную инфраструктуру работы с данными», — рассказал Алексей Нейман.
Об этом же говорят последние исследования и проекты компании oneFactor. Согласно им, малому и среднему бизнесу незачем вкладываться в аналитику больших данных: они могут воспользоваться уже готовыми сервисами дата-монополистов. Речь идет об интернет- площадках, операторах связи, а также банках.
Денис Рыбченко солидарен с Алексеем Нейманом. По его словам, определить какую-либо индустрию или тип компании, для которой аналитика больших данных нецелесообразна или тем более невозможна, очень сложно: единственное необходимое условие применения аналитики — наличие истории наблюдений и надлежащее качество данных.
«В крупных компаниях зачастую выше потенциал для оптимизации: больше процессов и больше самих собираемых данных, что дает больше возможностей для анализа и построения сложных моделей с использованием методов ИИ. Однако и для небольшой компании аналитика больших данных будет полезна, особенно если она имеет большой объем данных, доступный для анализа», — отметил Денис Рыбченко.
Николай Князев также обращает внимание на необходимость для аналитики определенного объема данных. Такого, на котором будут работать закон больших чисел и другие статистические законы.
«Например, если вы собираетесь разделять пользователей по категориям, вам необходимо хотя бы по сто клиентов каждой категории. С другой стороны, сейчас активно развивается направление transfer learning и использования схожих данных; грубо говоря, обучив модель на данных одной ресторанной сети, ее возможно применить для не большого кафе», — пояснил Николай Князев.
Таким образом, и отсутствие необходимого объема данных для бизнеса уже не проблема: при необходимости он все равно сможет воспользоваться аналитикой big data.
Сможем ли мы жить без больших данных
Если вдруг станет невозможно использовать искусственный интеллект для аналитики больших данных, то бизнесу ничего не останется, как снова прибегнуть к естественному интеллекту.
Уже сейчас для передовых компаний, у которых важные процессы строятся в том числе на обработке больших данных и с применением ИИ, потеря таких технологий станет катастрофой.
«Последует невозможность выполнения функций средствами автоматизации на требуемом уровне, потребуется наем огромного штата операторов для ручной обработки данных или принятия решений. При этом качество решений будет значительно хуже и, как результат, станет приводить к большим запасам/ резервам, неэффективной логистике, снижению продаж и так далее», — по-ясняет Денис Рыбченко.
«В первую очередь рухнет мировая паутина сайтов, так как станет невозможно поддерживать механизмы поиска и загрузки информации. А без интернета мир изменится так кардинально, что остальные нюансы покажутся несущественными», — заверил Николай Князев.
«Инстаграм и другие социальные сети перестанут существовать сразу. Рынок рекламы очень сильно просядет, 80 процентов представителей интернет-маркетинга разорятся. Около 90 процентов иконок на смартфоне перестанут работать, а сам смартфон надо будет поменять на кнопочный телефон. Биржевая торговля уже немыслима без современной аналитики данных. Медицина также откатится к уровню прошлого века: половина современной медицинской техники использует эти технологии. Но не без хорошего: нам перестанут приходить “письма счастья” из ГИБДД, так как не будет технологичной фото- и видеофиксации с распознаванием символов», — отмечает Алексей Нейман.
Продукты на основе больших данных открывают перед бизнесом безграничные возможности, и современный мир уже трудно представить без них. Однако без труда получить желаемое от аналитики big data нельзя. Нужны не только довольно значительные финансовые средства, но и как минимум полный порядок с данными.
Источник: Эксперт