+7 (495) 230-01-45

Аналитика речи: как и зачем


Автор: TAdviser Время прочтения: 7 минДата публикации: 25.06.2021
Теги: Большие данные, аналитика речи, распознавание речи, искусственный интеллект, машинное обучение, ML
Кто-то, наверно, уже привык разговаривать с Алисой и Siri, а кто-то считает, что все эти голосовые помощники от лукавого. Не знаю, от кого они на самом деле, но разобраться с тем, какая технология помогает распознавать наше бормотание и трансформировать его в определенные команды стоит. Сегодня тема подкаста эксперта департамента аналитических решений ГК «КОРУС Консалтинг» Светланы Вронская на TAdviser – аналитика речи.

Я сама удивилась, узнав об этом, но именно хорошо известные всем коллекторские службы стали одними из первых, кто применил в своей практике новые системы анализа речи, которые переводят речь человека в текстовый формат с помощью машинного обучения. Новые технологии применялись коллекторами по телефону, и делалось это и для того, чтобы убедиться, соблюдаются ли агентами нормативные требования, и для улучшения качества обслуживания должников (как это не смешно звучит).

Теперь распознавание речи и построенная на ее базе речевая аналитика стали важным элементом ИТ-инфраструктуры любой компании, которая работает с клиентами по телефону. Последнее время производители подобных систем обещают величину ошибки при распознавании разговоров не более 4–5%. И даже в русском языке, где ситуация осложняется большим количеством фраз в предложении, точность распознавания по идее должна достигать 80%. 

Объем рынка распознавания речи в 2020 году исследователи Frost & Sallivan оценили в $12,4 млрд. При этом через два года по их прогнозам рынок должен удвоиться, а к 2024 г. - достичь уровня в $43,5 млрд.

Давайте разберемся, откуда вообще взялась эта технология.

Технология распознавания речи, она же Speech-to-Text, появилась еще в конце прошлого столетия, но качественно преобразовывать человеческую речь в текст программы научились только в 2000-х — по мере развития машинного обучения.

Если описать кратко процесс работы алгоритма, то выглядит это так: система слышит звуковой сигнал и восстанавливает по этому сигналу воспроизведенную человеком фразу. Сначала устройство записывает голосовой запрос, а нейросеть анализирует поток речи. Затем нейросеть обращается к своим шаблонам и сопоставляет фонемы с буквой, слогом или словом. Далее образуется порядок из известных программе слов, а неизвестные слова она вставляет по контексту. В результате объединения информации с этих двух этапов получается речь, превращенная в текст.

Поначалу Speech-to-Text заключался в элементарной акустической модели — речь человека сопоставлялась с шаблонами. Но количества словарей в системе было недостаточно для точного распознавания, программа часто ошибалась. Появление нейросетей и возможность обрабатывать без участия человека огромные массивы данных повысили качество распознавания и сделали эту технологию номером 1 по применению в большом количестве отраслей и компаний.

Где же это? Например, в интерактивных голосовых системах (IVR). Голосовые роботы позволяют автоматизировать общение с клиентами, снижают нагрузку на операторов и экономят средства компании на расширение контакт-центров.

При проведении маркетинговых исследований система может самостоятельно обзванивать клиентов и узнавать их мнение о товарах или услугах. Не то чтобы для человека это являлось трудной задачей, но автоматизация освобождает сотрудников от незначительных рутинных дел, а компании помогает сократить возможность человеческого фактора.

С помощью технологий распознавания речи можно легко персонализировать предложения клиентам - определить пол, возраст и другие данные. Анализ этих данных позволяет выявить его потребности и предоставить соответствующие уникальные предложения о товарах или услугах.

Еще одна очень полезная функция Speech-to-Text - сбор информации. Когда оператор получает информацию от клиента, ему необходимо занести ее в базу данных. Это действие можно автоматизировать, если настроить систему распознавания речи.

Более того, можно сильно сократить ваш отдел персонала, так как даже нанимать сотрудников можно с помощью технологий распознавания речи. Найм сотрудников. Однообразный процесс в виде первичного отбора кандидатов технологии распознавания речи позволяют проводить без участия сотрудников HR-отдела. Система может задать кандидатам простые вопросы, проанализировать их ответы и оценить удовлетворенность кандидата условиями работы.

Конечно, без технологии распознавания текста совершенно немыслимы наши привычные голосовые почты и «умные дома». Но одним из главных применений технологии стала речевая аналитика.

Речевая аналитика — это инструмент, который распознаёт речь в аудиозаписях, переводит ее в текст и составляет отчёты о разговорах. Состоит система речевой аналитики из трех частей - распознавания речи, перевода ее в текст и анализа текста.

Прежде всего, такие системы требуются в работе контакт-центров, в которых невозможно отслеживать и прослушивать работу всех операторов.

Если совсем просто, то процесс работы речевой аналитики выглядит так: система записывает каждый диалог с клиентом, с помощью нейронных сетей транскрибирует аудиозаписи и анализирует его на основе заранее созданной библиотеки с помощью специальных фильтров и заданных шаблонов.

Самая интересная часть работы заключается здесь в анализе - тщательной проверке на основе тегов – специально отобранных категорий слов. Эти ключевые слова и категории можно объединять в тематические словари, которые будут содержать общие фразы или части фраз, по которым можно классифицировать и оценить звонок. При этом словари могут быть универсальными и уже встроенными в систему речевой аналитики, а могут быть разработаны для конкретной бизнес-задачи и для конкретной компании.

Подобные словари нужны для того, чтобы выявлять разговоры, в которых операторы контакт-центра, например, часто используют слова-паразиты или злоупотребляют фразами о том, что не может помочь решить вопрос клиента.

Важная функция систем речевой аналитики состоит в том, что голос каждого из участников диалога записывается на отдельную звуковую дорожку. И система отслеживает те моменты, где дорожки либо пересеклись (оператор или клиент перебивают друг друга, что не очень хорошо) или прервались (оба собеседника замолчали, что тоже не очень хорошо).

После прохождения всех этапов система речевой аналитики анализирует прошедший телефонный разговор по ряду параметров (скорость разговора, перебивание, молчание, процентное отношение речи клиента к речи оператора и др.) и автоматически оценивает звонок. При выставлении оценки можно использовать преднастроенную балльную систему и набор параметров, заложенный в решении, либо адаптировать их под задачи вашей компании.

Я уже упомянула словари, которые помогают в автоматическом режиме выделять в разговоре ключевые слова. Именно благодаря им можно анализировать целый ряд параметров. Среди них соблюдение скриптов в речи оператора, недовольство клиента качеством обслуживания или качеством продукта, упоминание конкурентов в речи клиента, повторения в разговоре и любые проблемные вопросы. Работает этот алгоритм следующим образом: как только в речи клиента или оператора встречается ключевое слово, ответственный менеджер сразу же получает уведомление и может прочитать или прослушать важный диалог.

При этом в выигрыше при использовании речевой аналитики все отделы. Продажи анализируют конверсию, создав отдельный словарь для скриптов продаж, и проверять, следуют ли им сотрудники. Клиентский сервис выявляет звонки, которые содержат конфликтные диалоги и проактивно реагировать на них. Маркетинг получает канал обратной связи от клиентов для того, чтобы оперативно реагировать на неудобные для заказчиков моменты (плохо работающий сайт, некачественный товар и пр.).

Есть большое количество кейсов, связанных с конкретными отраслями, где распознавание речи и ее аналитика, просто не заменимы. Например, в компаниях, работающих в области здравоохранения, агенты должны разъяснять пациенту политику конфиденциальности. Система анализа речи может извещать агента напоминанием, если он не сделал этого в начале разговора. А в страховых организациях, такие системы, особенно оснащенные функциональностью для распознавания эмоций, нужны, чтобы точно понимать, когда клиент проявит желание подать страховую претензию.

И конечно, нельзя забыть про набирающее популярность направление голосовой биометрии. Банки используют голос для идентификации клиентов и уже рапортуют, что смогли спасти деньги клиентов. А в будущем распознавание скорее всего будет работать в системах общественного транспорта – подумайте сами, больше никаких проездных, только голос. 

И все это на базе того, что мы говорим, а нейронная сеть слышит.

Источник: TAdviser

Закажите бесплатную консультацию эксперта

Читайте также