Какую кодировку использует Outlook для текстовых сообщений?

Мне нужно декодировать сообщения электронной почты, сохраненные из Outlook, как текстовые. К сожалению, они не в формате ISO-8859-1, поскольку содержат специальные символы «умных кавычек». Имеет ли кодовая страница, используемая Outlook, настоящее имя (которое я могу передать в unicode.decode () в Python) или это просто произвольная выдуманная ерунда, которую мне придется декодировать вручную? И если да, то есть ли у кого-нибудь ссылка на все "специальные" символы, добавленные Microsoft?


person Luke McCarthy    schedule 27.01.2011    source источник
comment
Это не стандартный UTF-8? (Я полагаю, вы уже пробовали это?) Я также не уверен, что это действительно связано с программированием.   -  person Cody Gray    schedule 27.01.2011
comment
Когда Microsoft начала использовать UTF-8 для чего-либо? Я считаю, что они все еще называют UTF-16 просто «Unicode»?   -  person Christopher Creutzig    schedule 27.01.2011


Ответы (2)


Вполне вероятно, что Outlook сохранит сообщения в вашем текущем языковом стандарте. Я предполагаю, что это Windows-1252.

Нитпик: То, что вы называете «умными цитатами», на самом деле так и должно выглядеть. Цитаты, которые вы использовали в своем сообщении, известны как «цитаты пишущей машинки»; для механических пишущих машинок количество клавиш было основным фактором стоимости, и цитаты, которые выглядят очень похожими друг на друга, и символ дюйма были объединены в одну клавишу, черт возьми, эстетика.

person Christopher Creutzig    schedule 27.01.2011
comment
Кстати, это cp1252 в Python. - person Luke McCarthy; 27.01.2011

Существует множество (зависящих от локали) кодовых страниц Windows, поэтому, возможно, в худшем случае это зависит от страна проживания отправителя.

person unwind    schedule 27.01.2011
comment
Я могу предположить, что все сообщения будут из языков США или Великобритании. Похоже, Windows-1252 - правильная кодировка, спасибо. - person Luke McCarthy; 27.01.2011