Как преобразовать форматированный текст в обычный текст

У меня есть XML-файлы с данными в таком формате:

<DataBlock>
  <Text>Name1</Text>
  <Text>Name2</Text>
  <Text>Name3</Text>
<DataBlock>

Данные могут быть на разных языках, включая арабский, китайский, кириллицу и т. д. Также эти данные могут содержать латинский текст в различных готских или рукописных символах UTF, например:

<Text>????????????</Text>

<Text>????????????????</Text>

Но мне нужно сохранить их как обычный текст, например:

<Text>ABB</Text> 
<Text>ZERO</Text>

Насколько я понимаю, проблема в том, что текст теперь сохраняется в длинных кодах UTF:

Коды UTF

Но как я могу преобразовать его в простые латинские символы?

python data-conversion utf

Vs Kc 17.04.2020 источник

comment

Это не проблема шрифта. Здесь вы используете символы Юникода U+1D4D0 (МАТЕМАТИЧЕСКАЯ ЖИРНАЯ ЗАГЛАВНАЯ ЗАГЛАВНАЯ A) и U+1D4D1 (МАТЕМАТИЧЕСКАЯ ЖИРНАЯ ЗАГЛАВНАЯ ЗАГЛАВНАЯ BOLD SCRIPT B). Это означает, что проблема является правильной проблемой, которая, ИМХО, заслуживает правильного ответа, но вопрос ввел в заблуждение. - Serge Ballesta 17.04.2020

comment

unicodedata.normalize('NFKD', "????????????????") =› 'ZERO'` Я не согласен с тем, что это должно быть закрыто. Было бы неплохо рассказать о том, как это работает. Вы можете нормализовать такой текст, что может быть полезно. - Todd 17.04.2020

comment

Это не ответ сам по себе, а подсказка: блок математических буквенно-цифровых символов описан здесь - Serge Ballesta 17.04.2020

comment

@Todd: ваше использование NKFD здесь действительно заслуживает одобрения! - Serge Ballesta 17.04.2020

comment

unicodedata.normalize('NFKD', "????????????") => 'ABB' Посмотрите, сработает ли это для вас, VsKc - Todd 17.04.2020

comment

@Todd: Спасибо, это то, что я искал! - Vs Kc 17.04.2020

Как преобразовать форматированный текст в обычный текст

Вопросы по теме