Анализ разговоров с помощью трансформеров

Пандемия Covid-19, охватившая весь мир, внесла соответствующие изменения в наше общество. Одним из них является возможность работать удаленно, оправдывая ожидания заинтересованных сторон, клиентов и инвесторов. По этой причине компании внедрили различное программное обеспечение для поддержания и улучшения коммуникаций. Такие программы, как Google Meet, Microsoft Teams и Slack, являются примерами технологий такого типа.

Zeals — компания, в отделе разработки которой работает много иностранцев, а общий язык — английский. Однако основным языком остается японский в других отделах, таких как продажи, бизнес и т. д.

Иногда бывают долгие обсуждения, в которых участвуют члены разных команд. Эти разговоры содержат потребности и ожидания, которые необходимо учитывать. Однако у компаний или участников не так много времени для общения лицом к лицу, а взаимодействия или разговоры в разных каналах и с использованием различного программного обеспечения могут быть легко забыты.

По этой причине цель настоящей статьи состоит в том, чтобы представить развитие разговора, проводимого во внутреннем канале, с использованием методов обработки естественного языка (NLP).

Давайте начнем

Как читатель может знать, ежедневно ведется множество разговоров по разным каналам связи. В следующей статье представлены некоторые из наиболее важных выводов из соответствующего обсуждения.

0. Подготовка:

Дата:

Этот разговор состоялся в конце марта 2022 года.

Причина для анализа:

Потому что это может помочь Zeals понять потребности, ожидания или мысли разных отделов.
Это может помочь понять чувства по поводу конкретных ситуаций с научной/математической точки зрения.

Длина:

Эта беседа содержит более 50 выступлений представителей 7 подразделений компании.

Язык:

Поскольку эта беседа велась в основном на английском языке, учитываются только комментарии на этом языке.

Программное обеспечение:

Этот анализ был проведен с использованием Python 3.9.

1. Сбор данных

Данные организованы в файл CSV и содержат некоторые метапараметры, предоставленные Slack. К ним относятся message, user_id и timestamp.

Добавление дополнительной информации, связанной с отделами, подразделениями и т. д.

Информация, относящаяся к отделам и подразделениям, собирается из другого источника и сопоставляется с соответствующим элементом.

2. Очистка данных

Во время разговора были сложные абзацы. Они были разделены на разные предложения, и временная метка была назначена в зависимости от хода разговора.

Кроме того, из корпуса были удалены стоп-слова. После публикации доктора Ганесана:

Стоп-слова — это в основном набор часто используемых слов на любом языке, а не только на английском.

Причина, по которой стоп-слова имеют решающее значение для многих приложений, заключается в том, что если мы удалим слова, которые очень часто используются в данном языке, мы сможем вместо этого сосредоточиться на важных словах.

Взято из: Что такое стоп-слова?

Стоп-слова можно определить в основном как определители, сочинительные союзы и предлоги. Читатель может углубиться в их определения, проверив ссылки. Кроме того, для нашего анализа мы используем другие пользовательские слова, такие как имена.

Добавление пользовательских имен и других слов:

то есть: имя1, имя2, имя3,…

3. Анализ настроений

Анализ тональности — популярный инструмент для анализа разного рода текстов. Он вычисляет степень настроений, таких как негативность или позитивность.

Для нашего исследования мы будем использовать преобразователи и функции анализа тональности, предоставляемые базовой моделью DistilBert без кейса с тонкой настройкой SST-2.

Мы использовали Google Colab для установки и запуска моделей.

Давайте рассмотрим несколько примеров:

Позже мы определили порог для идентификации нейтральных сообщений. Теоретически это может быть 0,5, но для нашего исследования мы определили их между 0,4 и 0,7.

По нашему определению негативные комментарии отображаются красным цветом, нейтральные — черным, а остальные — синим.

Анализ этого разговора показывает в среднем 50,18% положительных значений, а 49,12% — отрицательных.

4. Облако слов

Чтобы построить облако слов, мы можем действовать следующим образом:

Фрейм данных под названием orgDf содержит информацию для анализа и отображения.

Общий

Результаты некоторых подразделений компании представлены следующим образом:

Культура и опыт

Для разделения культуры и опыта стоит упомянуть некоторые слова, такие как: will, result и securities для них необходимы.

Отдел продукта

Для товарных подразделений во время разговора часто используются такие слова, как business, investors, hire и grad.

Системное подразделение

Для системных подразделений в разговоре были важны такие слова, как developer, experience, graduate, career и know.

Краткое содержание

Можно было оценить сентимент-анализ в этом разговоре.
Используя облако слов, можно понять потребности или идеи различных отделов или подразделений.
Могут быть реализованы дальнейшие улучшения, такие как лемматизация и стемминг.
Наконец, мы можем проанализировать любой разговор и извлечь из него ценную информацию.

Анализ разговоров с помощью трансформеров

Давайте начнем

0. Подготовка:

Дата:

Причина для анализа:

Длина:

Язык:

Программное обеспечение:

1. Сбор данных

Добавление дополнительной информации, связанной с отделами, подразделениями и т. д.

2. Очистка данных

3. Анализ настроений

4. Облако слов

Общий

Культура и опыт

Отдел продукта

Системное подразделение

Краткое содержание

Рекомендации

грамматика

Трансформеры

Анализ разговоров с помощью трансформеров

Давайте начнем

0. Подготовка:

Дата:

Причина для анализа:

Длина:

Язык:

Программное обеспечение:

1. Сбор данных

Добавление дополнительной информации, связанной с отделами, подразделениями и т. д.

2. Очистка данных

3. Анализ настроений

4. Облако слов

Общий

Культура и опыт

Отдел продукта

Системное подразделение

Краткое содержание

Рекомендации

грамматика

Трансформеры

Вопросы по теме