Содержание:

  1. Обзор.
  2. Данные.
  3. Предварительная обработка.
  4. Грубая очистка (все слова)
  5. Незначительная настройка (все слова)
  6. Часто используемые слова (все слова)
  7. Сюжеты (все слова)
  8. Грубая очистка (слова в центре внимания)
  9. Сюжеты (ключевые слова)
  10. Ссылка на код
  11. Будущая работа.
  12. Ссылки.

1 — Обзор: Поскольку в штате Уттар-Прадеш (Индия) проходят выборы в Ассамблею, новостные каналы или агентства/новостные каналы могут предсказывать экзит-поллы, чтобы сделать это, они проводят экзит-полы методом случайная выборка. Некоторые также выбирают систематическую выборку, чтобы предсказать фактический результат. Агентства/новостные каналы спрашивают людей из разных возрастных групп, пола, касты, религии и региона, за кого они голосовали.
Но иногда это становится очень дорого и может быть неточным. Какая альтернатива?
Как мы знаем, у нас есть большинство населения в социальных сетях, таких как Facebook, Twitter, YouTube и т. д. Если мы каким-то образом используем эти данные для анализа или прогнозирования дешевым и эффективным способом.
Что ж, это в блоге обсудить и показать образец работы по выполнению предложенной идеи, которая может дать возможность использовать идею для экспериментов с большим количеством данных.

2 — Данные. Как мы обсуждали выше, чтобы использовать данные из социальных сетей, здесь я возьму данные с YouTube, такие как «комментарии» и «лайки» из 10 лучших интервью за последние пару месяцев. двух основных кандидатов Ахилеша Ядава (партия Самаджвади) и Йоги Адитьи Натха (партия Бхартия Джанта).

Для этого мы собираем комментарии YouTube к 10 лучшим видео обоих кандидатов.

Ниже приведен код для очистки комментариев и отметок «Мне нравится» видео Ахилеша Ядава, а также для Йоги Адитьи Натха.

2 — Предварительная обработка. Это самая тривиальная задача в анализе, так как не будет никакого машинного обучения или модели/алгоритма глубокого обучения, поскольку мы будем комментировать на нескольких языках, таких как хинди, английский или Хинглиш (римский урду), что немного усложнит нашу задачу. Итак, мы выполняем эту задачу в несколько частей —

Часть 1 — Получите стоп-слова:

Сначала удалите стоп-слова всех языков (хинди, английский или хинглиш), используя предварительно определенный список стоп-слов, который я нашел в Интернете.

Как видите, мы также добавили еще несколько стоп-слов, которых не было в списке стоп-слов.

Часть 2. Аббревиатура и удаление эмодзи:

В этой части мы попробуем преобразовать аббревиатуру чисел в числа типа К до 1000, при этом мы удалим эмодзи из предложений, используя библиотеку Эмодзи.

Часть 3 — Объединение:

Объединим все части очистки и удалим некоторые HTML-теги, HTML-ссылки с помощью библиотеки BeautifulSoup. Кроме того, мы также сокращаем такие слова, как не могу, на не могу, используя библиотеку contracts.

Часть 4. Применить

Здесь мы применили все задачи очистки предварительной обработки, используя функцию .apply в pandas.

То же самое касается набора данных Йоги Адитьи Натха.

4 — Очистка грубой силы (все слова): Теперь эта часть довольно сложна, поскольку мы выходим за пределы набора данных, что означает, что мы собираемся использовать слова/сленг, которые обычно используются людьми в Индии по отношению к конкретным партии или люди, подобные — предвзятые СМИ часто определяются людьми как «Медиа Годи». Мы создаем словарь этих таких слов и создаем шаблон для замены этих слов нашим определенным словарем. Здесь наше предположение, которое мы принимаем, заключается в том, что слова в словаре появятся в нашем наборе данных.

Примечание. Здесь мы берем все слова, не внося особых изменений. Это означает, что мы не будем преобразовывать отрицательные слова/предложения в теги вроде «Jai Yogi» в «Yogi_positive».

Затем мы применяем эту функцию к столбцам «комментариев», используя функцию pandas .apply.

5 — Незначительная настройка: здесь мы удалим некоторые слова, чтобы сделать графики/анализ более надежными.

6 — Часто встречающиеся слова: Здесь мы создали словарь слов и количество их появлений в корпусе. Тогда мы взяли только лучшие 50 повторений.

7 — Графики (Все слова):

Здесь мы строим облако слов, используя приведенный выше словарь.

8 — Очистка методом грубой силы (слова в центре внимания):Не делая блог немного длиннее, давайте перейдем к некоторым общим частям, здесь мы проведем ту же очистку, что и выше, но изменим словарь на сделать тег положительных или отрицательных комментариев.

9 — Сюжеты:

Теперь мы используем два метода: сначала мы просто наносим тег полярности в соответствии с партией и кандидатами, не объединяя их, а затем объединяем их в один в соответствии с партией соответствующих кандидатов.

10 — Ссылка на код: GitHub

11 — Будущая работа:

  • Чтобы сделать мой анализ более точным, я буду использовать твиты из Tweeter.
  • Используйте лайки более эффективно.
  • Создайте анализатор настроений.

12 — Ссылки.

  • "YouTube"
  • "Переполнение стека"