URL-адрес Git-хаба для полного кода: — нажмите здесь

Медиа является одной из крупнейших сетей в мире. Средства массовой информации помогают нам передавать информацию по телевидению по всему миру. Сегодня мы обсудим, как средства массовой информации могут получить прибыль, выбирая правильные заголовки. Так как, многие люди вообще читают новости исходя из предоставленных нам заголовков.

Содержание:-

Часть 1.О наборе данных.

Часть 2.Обработка данных.

Часть 3.Процесс проектирования функций.

Часть 4:- Инициализация модели.

Часть 5:- Точность.

Часть 6:- Выводы.

Различные части объясняются в следующей статье

Часть 1. О наборе данных.

Итак, для прогнозирования идеальных заголовков для газетной компании нам сначала нужен набор данных, чтобы модель можно было обучить на этих данных. Некоторые функции набора данных взяты из Kaggle, а некоторые другие функции взяты из Yahoo Finance. Смесь дает заголовки газет за 2000–2016 годы.

Часть 2. Обработка данных.

Данные загружаются с использованием pd.read_csv и кодируются с использованием «ISO-8859-1», поскольку набор данных содержит даты, в нем задействованные.

Затем данные разбиваются на обучающий и тестовый наборы таким образом, что обучающий набор содержит заголовки новостей, а тестовый набор содержит метки. Метки содержат 0 и 1, предсказывающие 0, когда курс акций конкретной газеты уменьшается, и 1, когда курс акций увеличивается на основе заголовков.

Часть 3. Разработка функций

Этот процесс содержит всю необходимую очистку данных. Любые дополнительные или изменения, необходимые для данных, выполняются здесь.

Шаг 1. Данные содержат знаки препинания . Это может быть проблемой при подгонке модели к алгоритму. Итак, теперь мы убираем знаки препинания и заменяем знаки препинания с помощью пробела. Это можно сделать с помощью ключа замены в python.

Шаг 2:- Мы видим, что имя столбца содержит «Top 1, Top 2,….». Это может ввести нас в заблуждение. Итак, имена столбцов лучше преобразовать в числа.

Шаг 3.Мы видим, что в заголовках новостей есть заглавные буквы. Итак, мы используем функцию «str.lower()» для преобразования заглавных букв в строчные.

Шаг 4. Теперь объедините все заголовки и сформируйте абзац. Так как его можно дополнительно преобразовать в вектор признаков.

Часть 4:- Инициализация модели.

Теперь, после того как абзац признаков сформирован, мы используем «CountVectorizer», чтобы преобразовать текстовый абзац в вектор признаков для инициализации модели. Здесь мы используем задачу с мешком слов в «Обработке естественного языка», чтобы угадать, повлияют ли слова, используемые в заголовках, на цену акций или нет. Теперь используйте подгонку модели к "Random Forest Classier", так как мы можем сказать, что это один из алгоритмов обучения ансамбля, который используется для значительного повышения точности алгоритма. Итак, для обучения модели мы использовали 200 оценщиков с энтропийными критериями.

Часть 5: – Точность.

Теперь, после завершения обучения, мы можем определить точность тестовых данных, используя «classification_report, путаницу_матрицу и точность_оценки» из библиотеки sklearn.metrices.

Часть 6. Выводы.

Из приведенной выше точности мы можем сделать вывод, что модель подходит для модели с хорошими прогнозами и может быть реализована в реальном мире.

Следуйте за мной, чтобы узнать больше о таких статьях и реализациях различных реальных примеров и статей по науке о данных! Вы также можете связаться со мной через LinkedIn и Github.

Надеюсь, вам понравилось читать мою статью. Оставайтесь с нами для большего количества такого контента до тех пор Удачного обучения.