python удаляет тексты твитов, такие как '\ xe2 \ x80 \ x98'

Первый раз делаю проект по интеллектуальному анализу текста.

После токенизации и подсчета наиболее часто встречающихся слов появляется много результатов, например

формат: ("string", frequency)
```
('\xe2\x80\x98', 3476)
('\xed\xa0\xbd', 2268)
```
Могу ли я узнать, есть ли у этого \ xed, \ xe0 или \ чего-то особенного значения? Я погуглил, но ничего не нашел. :?
Могу ли я узнать, есть ли какой-нибудь чистый способ регулярного выражения Python для включения любых твитов, начинающихся с \, в нежелательное слово (включая в список «стоп» в следующем скрипте)?

Вот сценарий, в котором я составляю список стоп-слов для удаления нежелательных слов:

# python 2.7, nltk 3.1

from nltk.corpus import stopwords

import string

punctuation = list(string.punctuation)

# Extra terms to remove
# rt, RT (retweet), via (retweet)

stop = stopwords.words('english') + punctuation + ['rt', 'via'] # Unwanted word list

for line in tweets_file:

    try:

        tweet= json.loads(line)

        terms_stops = [term for term in preprocess(tweet['text']) if term not in stop]

        terms_stops_utf=[x.encode('utf-8') for x in terms_stops]

python-2.7 regex tweets

Chubaka 31.10.2015 источник

comment

это байтовые строки, которые ваш редактор / система не может отобразить. Могут быть некоторые иностранные символы / знаки препинания на иностранном языке, которые кодек ascii не может кодировать - Hypothetical Ninja 31.10.2015

comment

Спасибо! Теперь мы знаем, что это такое. Есть ли какой-нибудь чистый способ их удалить? У меня есть еще один пост: языковой фильтр в API потоковой передачи твиттера действительно не работает. stackoverflow.com/questions/33404682/ Итак, мне нужно найти способ удалить эти байтовые строки - Chubaka 31.10.2015

comment

Обновление: terms_stops_utf = [x.encode ('utf-8') для x в terms_stops, если не x.startswith (\\ x)] orterms_stops_utf = [x.encode ('utf-8') для x в terms_stops, если не x .startswith (\ x)] может быть решением, но не повезло. Все еще пытаюсь понять это - Chubaka 01.11.2015

comment

Он уже закодирован. Попробуйте его расшифровать. Вся строка. - Ignacio Vazquez-Abrams 01.11.2015

comment

Хорошая точка зрения! Я нашел решение, но кажется, что некоторые другие нормальные слова будут удалены / проигнорированы. terms_stops_utf = [x.decode ('unicode_escape'). encode ('utf', 'ignore') для x в terms_stops] - Chubaka 01.11.2015

python удаляет тексты твитов, такие как '\ xe2 \ x80 \ x98'

Вопросы по теме