Пандемия Covid-19, охватившая весь мир, внесла соответствующие изменения в наше общество. Одним из них является возможность работать удаленно, оправдывая ожидания заинтересованных сторон, клиентов и инвесторов. По этой причине компании внедрили различное программное обеспечение для поддержания и улучшения коммуникаций. Такие программы, как Google Meet, Microsoft Teams и Slack, являются примерами технологий такого типа.
Zeals — компания, в отделе разработки которой работает много иностранцев, а общий язык — английский. Однако основным языком остается японский в других отделах, таких как продажи, бизнес и т. д.
Иногда бывают долгие обсуждения, в которых участвуют члены разных команд. Эти разговоры содержат потребности и ожидания, которые необходимо учитывать. Однако у компаний или участников не так много времени для общения лицом к лицу, а взаимодействия или разговоры в разных каналах и с использованием различного программного обеспечения могут быть легко забыты.
По этой причине цель настоящей статьи состоит в том, чтобы представить развитие разговора, проводимого во внутреннем канале, с использованием методов обработки естественного языка (NLP).
Давайте начнем
Как читатель может знать, ежедневно ведется множество разговоров по разным каналам связи. В следующей статье представлены некоторые из наиболее важных выводов из соответствующего обсуждения.
0. Подготовка:
Дата:
Этот разговор состоялся в конце марта 2022 года.
Причина для анализа:
- Потому что это может помочь Zeals понять потребности, ожидания или мысли разных отделов.
- Это может помочь понять чувства по поводу конкретных ситуаций с научной/математической точки зрения.
Длина:
- Эта беседа содержит более 50 выступлений представителей 7 подразделений компании.
Язык:
- Поскольку эта беседа велась в основном на английском языке, учитываются только комментарии на этом языке.
Программное обеспечение:
Этот анализ был проведен с использованием Python 3.9.
1. Сбор данных
Данные организованы в файл CSV и содержат некоторые метапараметры, предоставленные Slack. К ним относятся message
, user_id
и timestamp
.
Добавление дополнительной информации, связанной с отделами, подразделениями и т. д.
Информация, относящаяся к отделам и подразделениям, собирается из другого источника и сопоставляется с соответствующим элементом.
2. Очистка данных
Во время разговора были сложные абзацы. Они были разделены на разные предложения, и временная метка была назначена в зависимости от хода разговора.
Кроме того, из корпуса были удалены стоп-слова. После публикации доктора Ганесана:
Стоп-слова — это в основном набор часто используемых слов на любом языке, а не только на английском.
Причина, по которой стоп-слова имеют решающее значение для многих приложений, заключается в том, что если мы удалим слова, которые очень часто используются в данном языке, мы сможем вместо этого сосредоточиться на важных словах.
Взято из: Что такое стоп-слова?
Стоп-слова можно определить в основном как определители, сочинительные союзы и предлоги. Читатель может углубиться в их определения, проверив ссылки. Кроме того, для нашего анализа мы используем другие пользовательские слова, такие как имена.
Добавление пользовательских имен и других слов:
то есть: имя1, имя2, имя3,…
3. Анализ настроений
Анализ тональности — популярный инструмент для анализа разного рода текстов. Он вычисляет степень настроений, таких как негативность или позитивность.
Для нашего исследования мы будем использовать преобразователи и функции анализа тональности, предоставляемые базовой моделью DistilBert без кейса с тонкой настройкой SST-2.
Мы использовали Google Colab для установки и запуска моделей.
Давайте рассмотрим несколько примеров:
Позже мы определили порог для идентификации нейтральных сообщений. Теоретически это может быть 0,5, но для нашего исследования мы определили их между 0,4 и 0,7.
По нашему определению негативные комментарии отображаются красным цветом, нейтральные — черным, а остальные — синим.
Анализ этого разговора показывает в среднем 50,18% положительных значений, а 49,12% — отрицательных.
4. Облако слов
Чтобы построить облако слов, мы можем действовать следующим образом:
Фрейм данных под названием orgDf содержит информацию для анализа и отображения.
Общий
Результаты некоторых подразделений компании представлены следующим образом:
Культура и опыт
Для разделения культуры и опыта стоит упомянуть некоторые слова, такие как: will
, result
и securities
для них необходимы.
Отдел продукта
Для товарных подразделений во время разговора часто используются такие слова, как business
, investors
, hire
и grad
.
Системное подразделение
Для системных подразделений в разговоре были важны такие слова, как developer
, experience
, graduate
, career
и know
.
Краткое содержание
- Можно было оценить сентимент-анализ в этом разговоре.
- Используя облако слов, можно понять потребности или идеи различных отделов или подразделений.
- Могут быть реализованы дальнейшие улучшения, такие как лемматизация и стемминг.
- Наконец, мы можем проанализировать любой разговор и извлечь из него ценную информацию.
Рекомендации
грамматика
Трансформеры
- База DistilBERT бескорпусная Finetuned SST-2: https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english