Цель статьи: классифицировать, являются ли твиты твитами, связанными с ненавистью, или нет, используя Python, часть 1.
Обработка естественного языка (NLP) – это ветвь искусственного интеллекта, помогающая компьютерам понимать, интерпретировать человеческий язык и манипулировать им. НЛП опирается на многие дисциплины, включая информатику и компьютерную лингвистику, в своем стремлении заполнить пробел между человеческим общением и компьютерным пониманием.
В этой статье мы попытаемся классифицировать, являются ли твиты расистскими/сексистскими твитами или твитами, не использующими Python.
Подобласть обработки естественного языка (NLP), анализ настроений, в последние годы привлекает к себе большое внимание благодаря многочисленным захватывающим приложениям в различных областях. от бизнеса до политических исследований.
Анализ тональности – это автоматизированный процесс выявления и извлечения субъективной информации, лежащей в основе текста. Это может быть либо мнение, суждение, либо чувство по поводу определенной темы или предмета. Наиболее распространенный тип анализа настроений называется «обнаружение полярности» и состоит из классификации утверждения как «положительного», «отрицательного» или «нейтрального».
Данные
Мы будем использовать набор данных Kaggle: Анализ настроений в Твиттере
Обнаружение твитов ненависти, предоставленный Analytics Vidhya.
Для простоты мы говорим, что твит содержит разжигание ненависти, если с ним связаны расистские или сексистские настроения.
Давайте изучим данные
В обучающих данных твиты помечаются цифрой «1», если они связаны с расистскими или сексистскими настроениями. В противном случае твиты помечаются «0».
После загрузки набора данных обязательно распакуйте файл.
Исследовательский анализ данных
Если вы не знакомы с процессом EDA, проверьте:
Давайте прыгнем в это
как выглядят тестовые данные?
Проверьте, нет ли пропущенных значений.
Мы не замечаем пропущенных значений
Вывод
Я надеюсь, что смог немного разъяснить вам EDA для анализа твиттера, я буду загружать гораздо больше объяснений алгоритмов, потому что почему бы и нет :)
Спасибо, что дочитали до конца, надеюсь, вы смогли понять. Увидимся во второй части!
Вы можете связаться со мной по адресу: