Разговор с вашими бизнес-данными? Babelfish говорит на вашем языке.

Важность бизнес-ориентированного NER

Как привлечь больше людей в вашей организации к работе с данными? Может ли нетехнический персонал запрашивать базы данных, создавать отчеты и даже назначать задачи машинам? Если люди могут общаться с данными на простом английском языке, подумайте о времени и деньгах, сэкономленных за счет отсутствия необходимости изучать сложные рабочие инструменты.

Ответ заключается во внедрении обработки естественного языка (NLP): системы, которая может преобразовывать естественный язык в машинный запрос и возвращаться обратно с ответами на естественном языке. Однако для эффективной работы НЛП важно учитывать, как компоненты НЛП вписываются в бизнес-экосистему. Крайне важно, чтобы машина была обучена идентифицировать именованные объекты (распознавание именованных объектов-NER), которые имеют отношение к бизнесу, понимать семантические роли (маркировка семантических ролей), которые имеют значение для бизнес-данных, и извлекать зависимости до того, как значение будет извлечено из данного предложения. и преобразуется в запрос к базе данных.

Хотя есть несколько популярных инструментов, таких как Google, Amazon, IBM Watson, Microsoft и AllenAI, которые предлагают NER как услугу, в этом посте подчеркивается важность индивидуального NER по сравнению с общими решениями. Потому что для достижения оптимальных результатов по источникам бизнес-данных требуется специальный набор навыков.

Давайте сначала посмотрим, как обычные подозреваемые предлагают обнаружение именованных объектов для данного предложения.

Следующие URL-адреса позволяют вам протестировать предложение для популярных именованных объектов, таких как человек, местоположение, организация и т. д.

https://cloud.google.com/natural-language/

http://demo.allennlp.org/named-entity-recognition

В нашей недавней реализации мы обнаружили, что доступные готовые инструменты плохо работают с бизнес-данными, поскольку именованные сущности в бизнес-контексте не являются общими по своей природе.

Например, рассмотрим следующие запросы

Пример 1
Покажите мне продукты, приобретенные Unique Services

Пример 2
Покажите мне товары, которые продает Кевин Сандерс.

В первом примере «Уникальные услуги» — это название компании-партнера, которое остается незамеченным, когда мы токенизируем «уникальные» и «услуги» по отдельности.

Во втором примере, хотя API-интерфейсы определяют его как человека, он не определяет, является ли он клиентом или сотрудником отдела продаж. Без этого обнаружения есть шанс, что смысл предложения будет неправильным.

Готовые услуги NER лучше работают с текстовыми базами данных, которые в бизнес-сценариях могут относиться к данным из чата клиентов, журналов преобразования голоса в текст колл-центра и других, где вы хотели бы определить человека и, возможно, настроение в этом приговор

Однако бизнес-данные — это гораздо больше. Список именованных объектов должен классифицировать клиентов, сотрудников и партнеров, а также поддерживать список названий продуктов, местоположений, адресов электронной почты, URL-адресов и прочего. Каждый из этих объектов также должен быть обнаружен по его подклассу. Например, NER необходимо определить, является ли имя в предложении именем клиента, и, если да, дополнительно определить, является ли он потенциальным клиентом или покупателем.

Здесь Babelfish вступает в свои права. Собственное приложение NLP от Babelfish автоматически создает список NER из всех подключенных источников данных. Это достигается путем извлечения метаданных ключевых слов и их семантической организации в иерархическом порядке. Это процесс, который настраивается для каждого бизнеса, поскольку он требует обнаружения сущностей, уникальных для каждой организации. Такая степень пользовательской классификации может быть недоступна в инструментах, предлагающих общие решения NER.

Без надлежащего NER становится еще труднее обнаруживать, назначать роли и анализировать отношения, которые являются последующими шагами после распознавания именованного объекта. Другими словами, не определяя ключевое слово, можно не найти роль, в которой значение данного предложения может измениться.

Решение NLP, использующее бизнес-ориентированную систему NER, является ключом к раскрытию потенциала бизнес-данных; и передать его в руки любому, кто говорит на простом английском языке.