Первый раз делаю проект по интеллектуальному анализу текста.
После токенизации и подсчета наиболее часто встречающихся слов появляется много результатов, например
формат:
("string", frequency)
('\xe2\x80\x98', 3476) ('\xed\xa0\xbd', 2268)
Могу ли я узнать, есть ли у этого \ xed, \ xe0 или \ чего-то особенного значения? Я погуглил, но ничего не нашел. :?
Могу ли я узнать, есть ли какой-нибудь чистый способ регулярного выражения Python для включения любых твитов, начинающихся с
\
, в нежелательное слово (включая в список «стоп» в следующем скрипте)?
Вот сценарий, в котором я составляю список стоп-слов для удаления нежелательных слов:
# python 2.7, nltk 3.1
from nltk.corpus import stopwords
import string
punctuation = list(string.punctuation)
# Extra terms to remove
# rt, RT (retweet), via (retweet)
stop = stopwords.words('english') + punctuation + ['rt', 'via'] # Unwanted word list
for line in tweets_file:
try:
tweet= json.loads(line)
terms_stops = [term for term in preprocess(tweet['text']) if term not in stop]
terms_stops_utf=[x.encode('utf-8') for x in terms_stops]