Как преобразовать форматированный текст в обычный текст

У меня есть XML-файлы с данными в таком формате:

<DataBlock>
  <Text>Name1</Text>
  <Text>Name2</Text>
  <Text>Name3</Text>
<DataBlock>

Данные могут быть на разных языках, включая арабский, китайский, кириллицу и т. д. Также эти данные могут содержать латинский текст в различных готских или рукописных символах UTF, например:

<Text>????????????</Text> 

or

<Text>????????????????</Text>

Но мне нужно сохранить их как обычный текст, например:

<Text>ABB</Text> 
<Text>ZERO</Text>

Насколько я понимаю, проблема в том, что текст теперь сохраняется в длинных кодах UTF:

Коды UTF

Но как я могу преобразовать его в простые латинские символы?


person Vs Kc    schedule 17.04.2020    source источник
comment
Это не проблема шрифта. Здесь вы используете символы Юникода U+1D4D0 (МАТЕМАТИЧЕСКАЯ ЖИРНАЯ ЗАГЛАВНАЯ ЗАГЛАВНАЯ A) и U+1D4D1 (МАТЕМАТИЧЕСКАЯ ЖИРНАЯ ЗАГЛАВНАЯ ЗАГЛАВНАЯ BOLD SCRIPT B). Это означает, что проблема является правильной проблемой, которая, ИМХО, заслуживает правильного ответа, но вопрос ввел в заблуждение.   -  person Serge Ballesta    schedule 17.04.2020
comment
unicodedata.normalize('NFKD', "????????????????") =› 'ZERO'` Я не согласен с тем, что это должно быть закрыто. Было бы неплохо рассказать о том, как это работает. Вы можете нормализовать такой текст, что может быть полезно.   -  person Todd    schedule 17.04.2020
comment
Это не ответ сам по себе, а подсказка: блок математических буквенно-цифровых символов описан здесь   -  person Serge Ballesta    schedule 17.04.2020
comment
@Todd: ваше использование NKFD здесь действительно заслуживает одобрения!   -  person Serge Ballesta    schedule 17.04.2020
comment
unicodedata.normalize('NFKD', "????????????") => 'ABB' Посмотрите, сработает ли это для вас, VsKc   -  person Todd    schedule 17.04.2020
comment
@Todd: Спасибо, это то, что я искал!   -  person Vs Kc    schedule 17.04.2020