У меня есть XML-файлы с данными в таком формате:
<DataBlock>
<Text>Name1</Text>
<Text>Name2</Text>
<Text>Name3</Text>
<DataBlock>
Данные могут быть на разных языках, включая арабский, китайский, кириллицу и т. д. Также эти данные могут содержать латинский текст в различных готских или рукописных символах UTF, например:
<Text>????????????</Text>
or
<Text>????????????????</Text>
Но мне нужно сохранить их как обычный текст, например:
<Text>ABB</Text>
<Text>ZERO</Text>
Насколько я понимаю, проблема в том, что текст теперь сохраняется в длинных кодах UTF:
Но как я могу преобразовать его в простые латинские символы?
unicodedata.normalize('NFKD', "????????????????")
=› 'ZERO'` Я не согласен с тем, что это должно быть закрыто. Было бы неплохо рассказать о том, как это работает. Вы можете нормализовать такой текст, что может быть полезно. - person Todd   schedule 17.04.2020unicodedata.normalize('NFKD', "????????????") => 'ABB'
Посмотрите, сработает ли это для вас, VsKc - person Todd   schedule 17.04.2020