Обнаружение фальшивых новостей с помощью НЛП

С быстрым ростом Интернета и широким распространением социальных сетей за несколько десятилетий многие ресурсы превратились в платформу для обмена новостями. Платформы социальных сетей, такие как Facebook и Twitter, не только предоставляют платформу для обмена новостями, но и с помощью искусственного интеллекта и машинного обучения позволяют рекламодателям ориентироваться на конкретную аудиторию для своих целей. Благодаря легкому доступу и быстрому распространению любая новость достигает миллионов людей за короткий промежуток времени.

Интернет действует как канал прозрачности, но в то же время из-за отсутствия ограничений или проверки достоверности новости часто загружаются и распространяются через Интернет без проверки фактов. Фейковые новости имеют большое прямое влияние на общество. Фейковые новости продвигаются и публикуются в Интернете с неправильными намерениями повлиять на людей, поддерживая политическую предвзятость. Броские заголовки и вводящие в заблуждение заголовки статей побуждают читателей генерировать все больше и больше кликов.

Подлинность статьи, новости или автора можно проверить с помощью машинного обучения и обработки естественного языка. Детектор фейковых новостей предоставит пользователю возможность классифицировать новости как фейковые или настоящие.

Поддельные новости можно классифицировать и идентифицировать с учетом нескольких факторов достоверности следующим образом:

Подлинность. Поддельные новости содержат ложный или вводящий в заблуждение контент. Можем ли мы проверить подлинность контента или источника новостей?

Кликбейт: есть ли вводящий в заблуждение заголовок с броскими словами, которые используются для привлечения пользователей?

Обнаружение позиции: есть ли связь между заголовком и содержанием новостей? Какова позиция или мнение о новостях? Отрицает или за?

Анализ тональности: какова тональность контента? Он положительный, отрицательный или нейтральный?

Политическая принадлежность. Подчеркивается ли в содержании политическая принадлежность? Имеет ли автор политическую принадлежность?

Надежный источник. Надежен ли источник статьи, автора или новостной платформы?

Спам: Является ли статья спамом?

Доверие и надежность автора: каково влияние автора? Сколько у него последователей или подписчиков?

Действия в социальных сетях. Каковы действия пользователя в социальных сетях? Какие новости они отслеживают? Какие каналы они смотрят?

Лингвистическая основа: какой стиль письма? Грамматические построения названия статьи и текста?

Конвейер НЛП

Чтобы получить точные результаты прогнозирования при обнаружении поддельных новостей, важно следовать конвейерному процессу НЛП в отношении контента новостей.

Сбор и анализ данных

Новостные данные можно собирать онлайн через различные новостные веб-сайты. Веб-скребки можно использовать для динамического сбора новостей в режиме реального времени. В Интернете доступны различные новостные сайты по проверке фактов, такие как Политифакт. Наряду с этим общедоступны такие наборы данных, как LIAR-LIAR, Kaggle LAIR Dataset, Fake News Challenge и т. д. Эти наборы данных можно использовать для обучения модели и прогнозирования.

Очистка и предварительная обработка данных

Контент в социальных сетях непроверен и неструктурирован. Это часто включает сленг, жаргонизмы, опечатки и грамматические ошибки. Необходимо очистить эти данные и структурировать их, чтобы они могли генерировать значимые идеи. Это можно сделать в следующих шагах.

Удалить знаки препинания

Пунктуация может создавать шум и вносить ошибки в модели прогнозирования. В текстовом контенте векторизатор использует количество слов для прогнозирования, а знаки препинания не добавляют ему смысла. Поэтому рекомендуется удалять знаки препинания в рамках очистки данных.

Токенизация

Токенизация — это процесс преобразования неструктурированных данных в структурированные данные. Он разбивает текстовое содержимое на массив слов или предложений.

Удалить стоп-слова

Стоп-слова присутствуют в статье вместе с фактическим содержанием статьи. Эти слова могут быть рекламными объявлениями или любой информацией, связанной с веб-сайтом, опубликованной вместе со статьей. Эта информация не добавляет никакой ценности в модель прогнозирования, поэтому мы ее удалим.

Вывод

Стемминг переводит слово в корневую форму. Он удаляет суффикс и обрабатывает родственные слова таким образом, что различные варианты слов рассматриваются как одно слово.

Извлечение функций

Мы можем использовать новостной контент и извлекать различные функции из текстового контента, применяя различные методы извлечения функций. С помощью векторизации данных текстовые данные кодируются в числовой форме, чтобы алгоритмы машинного обучения могли их понимать.

Мешок слов

Пакет слов — это векторизатор подсчета, который отслеживает слова, присутствующие в текстовых данных, и количество их вхождений. Он присваивает каждому слову 1 или 0 в зависимости от его присутствия в предложении.

Н-грамм

N-граммы — это непрерывная последовательность слов или букв в содержании, где n представляет количество элементов, которые должны быть рассмотрены в последовательности. Чем больше значение n, тем больше контекста для понимания значения слов.

TF-IDF

TF-IDF определяет релевантность слова в документе. Он вычисляет частоту слова во всем документе. Он сравнивает эту частоту во всех документах и взвешивает слово в соответствии с его релевантностью.

Модели машинного обучения

Следующим шагом является обучение классификаторов. Извлеченные функции с использованием набора слов, N-грамм, TF-IDF передаются в различные классификаторы для прогнозирования достоверности новостей.

Наивный байесовский классификатор

Это вероятностный классификатор, основанный на применении теоремы Байеса. Это связано с предположением, что различные функции в классе не зависят друг от друга. Апостериорная вероятность выглядит следующим образом:

Классификатор случайного леса

Случайный лес или случайный лес решений — это набор деревьев решений. Каждое дерево в лесу выполняет классификацию и генерирует прогноз для класса. Класс с максимальным количеством голосов рассматривается как предсказание модели. Он реализует различные методы для обеспечения создания некоррелированных деревьев решений, которые обеспечивают лучшую производительность на уровне модели, чем на индивидуальном уровне. Методы, используемые для предотвращения корреляции деревьев решений, — это бэггинг и случайность признаков.

Логистическая регрессия

Это алгоритм классификации, который предсказывает двоичные значения по заданному набору независимых переменных. Он предсказывает, произошло ли событие или нет, давая числовой результат с точки зрения 0 и 1. Здесь он может предсказывать различные факторы в прогнозировании новостей, например, связана ли позиция или нет, авторизован ли контент или нет, созданы ли новости из законный источник или нет.

Пассивно-агрессивный классификатор

Пассивно-агрессивный алгоритм используется для непрерывных или больших потоковых данных, таких как цены на домашний скот или данные в Твиттере. Он остается пассивным во время классификации и становится агрессивным, как только происходит какая-либо ошибка в расчетах или выходят за пределы допустимого значения для набора заданных атрибутов.

Подобрав модели для разных классификаторов, узнайте производительность каждого классификатора, рассчитав показатель f1 и создав матрицу путаницы. Найдите самую эффективную модель, рассмотрев высокопроизводительный вывод классификатора. Эту модель можно использовать для классификации фейковых новостей. Эта модель принимает заголовок или статью в качестве входных данных от пользователя и дает поддельный прогноз новостей в качестве вывода.

Ссылки

[1] Обнаружение фейковых новостей в академии с помощью алгоритмов машинного обучения

[2] https://alternusvera.wordpress.com/

[3] https://www.politifact.com/

[4] http://www.fakenewschallenge.org/

Обнаружение фальшивых новостей с помощью НЛП

Конвейер НЛП

Вопросы по теме