EDA анализа настроений в Твиттере с использованием Python

Цель статьи: классифицировать, являются ли твиты твитами, связанными с ненавистью, или нет, используя Python, часть 1.

Обработка естественного языка (NLP) – это ветвь искусственного интеллекта, помогающая компьютерам понимать, интерпретировать человеческий язык и манипулировать им. НЛП опирается на многие дисциплины, включая информатику и компьютерную лингвистику, в своем стремлении заполнить пробел между человеческим общением и компьютерным пониманием.

В этой статье мы попытаемся классифицировать, являются ли твиты расистскими/сексистскими твитами или твитами, не использующими Python.

Подобласть обработки естественного языка (NLP), анализ настроений, в последние годы привлекает к себе большое внимание благодаря многочисленным захватывающим приложениям в различных областях. от бизнеса до политических исследований.

Анализ тональности – это автоматизированный процесс выявления и извлечения субъективной информации, лежащей в основе текста. Это может быть либо мнение, суждение, либо чувство по поводу определенной темы или предмета. Наиболее распространенный тип анализа настроений называется «обнаружение полярности» и состоит из классификации утверждения как «положительного», «отрицательного» или «нейтрального».

Данные

Мы будем использовать набор данных Kaggle: Анализ настроений в Твиттере
Обнаружение твитов ненависти, предоставленный Analytics Vidhya.

Анализ настроений в Твиттере
Обнаружение твитов ненависти, предоставлено Analytics Vidhyawww.kaggle.com

Для простоты мы говорим, что твит содержит разжигание ненависти, если с ним связаны расистские или сексистские настроения.

Давайте изучим данные

В обучающих данных твиты помечаются цифрой «1», если они связаны с расистскими или сексистскими настроениями. В противном случае твиты помечаются «0».

После загрузки набора данных обязательно распакуйте файл.

Исследовательский анализ данных

Если вы не знакомы с процессом EDA, проверьте:

Исследовательский анализ статистики трендов видео на YouTube во Франции
Угадайте, какое видео K-pop группы BTS DNA является самым популярным видео 2018 года !!!medium.com

Давайте прыгнем в это

как выглядят тестовые данные?

Проверьте, нет ли пропущенных значений.

Мы не замечаем пропущенных значений

Вывод

Я надеюсь, что смог немного разъяснить вам EDA для анализа твиттера, я буду загружать гораздо больше объяснений алгоритмов, потому что почему бы и нет :)

Спасибо, что дочитали до конца, надеюсь, вы смогли понять. Увидимся во второй части!

Вы можете связаться со мной по адресу:

Github, LinkedIn, Захра Эльхамрауи, Upwork