python удаляет тексты твитов, такие как '\ xe2 \ x80 \ x98'

Первый раз делаю проект по интеллектуальному анализу текста.

  1. После токенизации и подсчета наиболее часто встречающихся слов появляется много результатов, например

    формат: ("string", frequency)

    ('\xe2\x80\x98', 3476)
    ('\xed\xa0\xbd', 2268)
    

    Могу ли я узнать, есть ли у этого \ xed, \ xe0 или \ чего-то особенного значения? Я погуглил, но ничего не нашел. :?

  2. Могу ли я узнать, есть ли какой-нибудь чистый способ регулярного выражения Python для включения любых твитов, начинающихся с \, в нежелательное слово (включая в список «стоп» в следующем скрипте)?

Вот сценарий, в котором я составляю список стоп-слов для удаления нежелательных слов:

# python 2.7, nltk 3.1

from nltk.corpus import stopwords

import string

punctuation = list(string.punctuation)

# Extra terms to remove
# rt, RT (retweet), via (retweet)

stop = stopwords.words('english') + punctuation + ['rt', 'via'] # Unwanted word list

for line in tweets_file:

    try:

        tweet= json.loads(line)

        terms_stops = [term for term in preprocess(tweet['text']) if term not in stop]

        terms_stops_utf=[x.encode('utf-8') for x in terms_stops]

person Chubaka    schedule 31.10.2015    source источник
comment
это байтовые строки, которые ваш редактор / система не может отобразить. Могут быть некоторые иностранные символы / знаки препинания на иностранном языке, которые кодек ascii не может кодировать   -  person Hypothetical Ninja    schedule 31.10.2015
comment
Спасибо! Теперь мы знаем, что это такое. Есть ли какой-нибудь чистый способ их удалить? У меня есть еще один пост: языковой фильтр в API потоковой передачи твиттера действительно не работает. stackoverflow.com/questions/33404682/ Итак, мне нужно найти способ удалить эти байтовые строки   -  person Chubaka    schedule 31.10.2015
comment
Обновление: terms_stops_utf = [x.encode ('utf-8') для x в terms_stops, если не x.startswith (\\ x)] orterms_stops_utf = [x.encode ('utf-8') для x в terms_stops, если не x .startswith (\ x)] может быть решением, но не повезло. Все еще пытаюсь понять это   -  person Chubaka    schedule 01.11.2015
comment
Он уже закодирован. Попробуйте его расшифровать. Вся строка.   -  person Ignacio Vazquez-Abrams    schedule 01.11.2015
comment
Хорошая точка зрения! Я нашел решение, но кажется, что некоторые другие нормальные слова будут удалены / проигнорированы. terms_stops_utf = [x.decode ('unicode_escape'). encode ('utf', 'ignore') для x в terms_stops]   -  person Chubaka    schedule 01.11.2015