В мире предприятий имеется множество данных, которые можно использовать для обучения модели машинного обучения различным задачам. К сожалению, большая часть данных немаркирована или не аннотирована, что в некоторой степени делает их непригодными для использования. Но когда дело доходит до данных электронной почты, собирать электронные письма относительно проще, поскольку они обычно обрабатываются, маркируются и архивируются в базе данных. У большинства компаний уже есть система, которая обрабатывает электронные письма и помещает их в очереди соответствующих категорий, которые можно легко собрать для обучающих данных.

Даже при наличии качественных данных с маркировкой многое уходит на создание хорошей модели, которая хорошо себя зарекомендует в производственной среде. В этом блоге освещаются некоторые из часто встречающихся проблем при построении моделей классификации на основе данных корпоративной электронной почты.

1. Обмен данными

Еще до того, как мы поговорим об обучающих моделях машинного обучения, нам сначала нужно получить доступ к обучающим данным. Поделиться данными НЕ так просто, как кажется. Компании имеют огромный массив конфиденциальной информации, объединенной в обучающие данные, защищенные законами о конфиденциальности, такими как GDPR и HIPAA. Эти законы защищают PII (личную информацию) и другую конфиденциальную информацию от разглашения. Это создает огромную проблему для компаний при обмене своими данными для обучения модели машинного обучения.

Для идентификации этих персональных данных можно использовать умную комбинацию распознавания именованных сущностей (NER), тегеров частей речи (POS-теги) и регулярного выражения. Имя, номер телефона, возраст, дата, адрес, адрес электронной почты, веб-сайт и т. Д. Замаскированы специальными значимыми токенами. Это помогает надежно маскировать PII, а также сохранять некоторую информацию о намерениях, передаваемых PII, что может быть полезно для последующих задач.

Маскирование PII имеет два очень важных контринтуитивных преимущества: устранение предвзятости и повышение точности задач НЛП. Во-первых, анонимизация данных устраняет непреднамеренную предвзятость из-за наличия PII, например имен и местоположений. Во-вторых, удаление PII позволяет модели сосредоточить внимание на других показателях, таких как намерение и действия. Таким образом, анонимизация данных действует как средство очистки данных!

Тот факт, что набор данных может быть анонимным, устраняет препятствия для его совместного использования и открывает большое количество возможностей для эффективного решения многих корпоративных сценариев использования НЛП.

2. Шум - разделение и удаление

Архивированные данные электронной почты содержат заявления об отказе от ответственности, предупреждения и подписи, встроенные вместе с информативным содержанием. Некоторые электронные письма имеют формат HTML, некоторые из них имеют вложения. При построении модели классификации электронной почты большая часть этой дополнительной информации действует как шум и снижает производительность модели.

Электронные письма в формате HTML:

Исходящие корпоративные электронные письма имеют хорошо отформатированный HTML-шаблон. К ним относятся различные шрифты, встроенные изображения, теги VML и многое другое, не имеющее отношения к классификации электронной почты. Очистка HTML-тегов и других компонентов приводит к использованию простого текста.

Подписи и отказ от ответственности:

Исходящие корпоративные электронные письма обычно проходят проверку безопасности, в результате чего к электронным письмам автоматически добавляются заявления об отказе от ответственности. Подписи внизу писем различаются в зависимости от организации и географического местоположения. Эти дополнительные подписи и заявления об ограничении ответственности действуют как шум для модели, приводя к высокому отношению шума к сигналу, что приводит к снижению производительности. Выявить и удалить текст подписи и заявления об отказе - сложная задача.

Есть несколько подходов к удалению подписей. Они есть -

Подход, основанный на правилах. Если содержание, образующее заявление об отказе от ответственности или подпись, является фиксированным или существует шаблон для его форматирования, можно использовать шаблон регулярного выражения, чтобы удалить его из тела письма.

Модель прогнозирования на основе диапазона. Обучите модель прогнозирования на основе диапазона, которая принимает в качестве входных данных все электронное письмо и предсказывает начальный и конечный токены подписи. Имея информацию о начальных и конечных токенах, мы даже можем избавиться от множества подписей и заявлений об отказе от ответственности в теле письма, если они есть.

3. Корпоративный жаргон

Электронные письма наполнены предметным жаргоном, который иногда не входит в словарный запас готовых моделей машинного обучения. Иногда само сокращение может быть актуальным словом в словаре. Даже способ структурирования электронных писем и используемый язык зависят от предметной области. Если мы возьмем в качестве примера область страхования, мы увидим электронные письма, проверяющие статус претензии или просьбы о преимуществах определенного полиса, или отправку документов, связанных с претензией. Язык, на котором написаны эти электронные письма, может отличаться от электронного письма с жалобой на услугу или продукт.

Модель должна понимать эту новую форму данных и адаптироваться к ней. Для этого мы можем настроить нашу языковую модель в соответствии с данными обучения. Таким образом, мы используем уже усвоенное «понимание» английского языка и повышаем лингвистические способности модели для понимания предметно-ориентированного языка, используемого в электронных письмах, и адаптации к нему.

Электронные письма также могут содержать сокращения, которые могут быть известны только экспертам в предметной области, например - документ LOA (доверенность) или EOB (объяснение преимуществ). Было бы неплохо сопоставить сокращения и расширить их. Это помогает модели немного лучше понять контекст аббревиатуры, что приводит к повышению производительности.

4. Перекрытие данных

Чаще всего цели некоторых категорий в обучающих данных совпадают. Граница, разделяющая эти темы, четко не определена, что приводит к тому, что модель неправильно классифицирует образцы по этим категориям. Типичным примером из области страхования может быть категория «запроса» для страховой компании. Категория «запрос утверждения» будет обрабатывать запросы по утверждению, тогда как «общий запрос» будет надмножеством и охватывать любые общие запросы.

Даже с достаточно большим набором обучающих данных модель все равно не сможет различать перекрывающиеся категории. Один из отличных способов повысить точность классификации - использовать любую дополнительную информацию, связанную с этими категориями. Например, «запрос заявки» почти всегда может иметь номер заявки, против которой направлен запрос. Мы можем использовать методы «извлечения данных», чтобы извлечь номер претензии и проверить его на основе поиска со всеми номерами претензии. Успешное извлечение номера претензии можно использовать для направления классификации в правильную категорию.

5. Дрейф модели

Если и есть одна истина в последней инстанции о жизни, так это то, что «Ничто не вечно». То же верно и для моделей машинного обучения. В динамической среде производительность модели не гарантируется. Со временем характеристики модели ухудшаются. Это может быть результатом как дрейфа данных, так и дрейфа концепций.

Дрейф данных. Со временем формат сообщений электронной почты может измениться или способ написания сообщений электронной почты может измениться. Это может привести к тому, что модель будет хуже работать с производственными данными / данными вывода, поскольку данные могут попадать под другое распределение, чем распределение обучающих данных, на котором была обучена модель. Набор обучающих данных обычно выбирается из исторических данных, поэтому важно убедиться, что нет значительных изменений в исторических обучающих данных и данных, по которым будет строиться модель.

Дрейф понятий - дрейф понятий - это изменение статистических свойств целевого класса. Проще говоря, описание, составляющее категорию, которую мы хотим прогнозировать, со временем меняется. Когда модель обучается, она изучает функцию, которая сопоставляет входные данные с целью. Поскольку цель изменилась, функция больше не является точной, что приводит к неверным прогнозам. Организационные изменения и реструктуризация могут повлиять на способ определения категории.

Дрейф модели может привести к неожиданному поведению. Поэтому важно обнаружить это явление на ранней стадии. Рекомендуется отслеживать прогнозы модели с течением времени, чтобы определить любую закономерность или аномалию, которые могут указывать на дрейф модели. Периодическое переобучение модели с использованием более новых данных также помогает поддерживать модель в актуальном состоянии. При разработке моделей машинного обучения мы должны предвидеть эти изменения, для которых очень важно понимание данных.

В то время как мы в Ushur продолжаем изобретать такие решения, как SmartMail (TM) - интеллектуальное решение автоматизации для сортировки больших объемов электронной почты, классификации электронной почты и извлечения данных - с использованием сложных схем анонимизации данных и собственного производства Решения НЛП, проблемы работы со сложными наборами корпоративных данных могут со временем только расти. Как сказал бы Человек-паук из корпоративного мира: Корпоративные данные связаны с большой ответственностью, и мы должны постоянно быть в состоянии противостоять таким вызовам с помощью творческих решений и усердия.