Как я могу обрабатывать неправильно закодированный символ с помощью Python 2?

HTML-файл, который я загружаю, содержит некоторые символы, которые не поддерживаются кодировкой, указанной в заголовке HTML:

Я обнаружил, что следующие кодировки не поддерживаются кодировкой Shift_JIS, но фактически используются. Мой браузер может правильно отображать эти символы.

∑ n-арное суммирование U+2211
ﾟ Полуширинный полуголосый звуковой знак катакана U+FF9F
Д кириллическая заглавная буква U+414

Когда я пытаюсь прочитать этот файл HTML и декодировать его для обработки, я получаю UnicodeDecodeError.

url = 'http://matsucon.net/material/dic/kao09.html'
response = urllib2.urlopen(url)
response.read().decode('shift_jis_2004')

Есть ли хороший способ обработать HTML-код с неправильно закодированными символами без получения ошибки?

Daisuki Honey 27.11.2014 источник

Ответы (1)

arrow_upward
1
arrow_downward

Попробуй это:

response.read().decode('shift_jis_2004',errors='ignore')

Irshad Bhat 27.11.2014

Как я могу обрабатывать неправильно закодированный символ с помощью Python 2?

Ответы (1)

Вопросы по теме