Вы когда-нибудь задумывались, как восстановить эмоции, вовлеченные в роман?

Мы знаем, что сентиментальный анализ является одним из основных аспектов, используемых для определения того, являются ли данные положительными или отрицательными. Он используется во многих местах, например, в сентиментальном анализе, сделанном для обзора продукта на Amazon. Даже анализ настроений делается для обзора фильма. За последнее десятилетие была проведена значительная работа по анализу настроений, особенно по определению того, имеет ли термин положительную или отрицательную полярность. Есть также работа над более сложными аспектами чувств, например, при обнаружении таких эмоций, как гнев, радость, печаль, страх, удивление и отвращение, эти термины также известны как основные шесть эмоций Экмана.

Моя программа начинает с того, что берет название романа, и если роман представлен в формате pdf, то он читает роман с помощью TextBlob, и я размечаю предложения. Позже я очистю данные и лемматизирую их. После завершения предварительной обработки текста я начну рассматривать токены и сравнивать их с моим набором данных эмоций, если это ключевое слово присутствует в наборе данных, тогда я возьму все эмоции, которые имеют значение «1» для этого токена и множителя. их с частотой слова и добавить их к их счету. Теперь я подумал о том, чтобы отнести любой конкретный роман к «Основным эмоциям» Экмана, используя два метода. Сначала я использовал базовый набор данных об эмоциях, который содержит примерно 15 000 слов, разделив их на шесть эмоций, а затем, если эти слова будут найдены в романе, им будет присвоено значение в зависимости от частоты этого слова. Эти токены (слова) также будут разделены на положительные и отрицательные слова, а затем на одну из эмоций, упомянутых ниже.

Как мы знаем, в романе могут быть предложения, в которых не будет ключевого слова, связанного с эмоциями, но тем не менее они выражают эмоции, поэтому в наборе данных Isear есть около 8000 предложений, связанных с определенными эмоциями. модель, а затем, если в предложении нет ключевого слова, оно будет классифицировано как одна из эмоций путем его классификации. Теперь я получил точность 76%.

Тем не менее, есть одна проблема из-за классификации данных по одной из эмоций, тогда даже если в предложении есть нейтральные эмоции или нет эмоций, они классифицируются как одна из эмоций, поэтому я начал обновлять предложения, добавляя также больше нейтральных предложений. В настоящее время, когда я спрашиваю людей, читавших книгу «Над пропастью во ржи», они говорят, что эта модель может быть точной на 60–65% плюс-минус.

Впереди долгое путешествие, нам нужно улучшить оба наших набора данных и классифицировать их по жанру.

Спасибо за чтение

Мир ✌️