Похожие символы UTF8 для ASCII

Я ищу таблицу, содержащую символы ASCII и одинаковые символы UTF8. Я знаю, что это также зависит от шрифта, если они выглядят одинаково, но для начала достаточно чего-то общего.

>>> # PY3 code:
>>> a='H'  # ascii
>>> b='Н'  # utf8
>>> a==b
False
>>> ' '.join(format(ord(x), 'b') for x in a)
'1001000'
>>> ' '.join(format(ord(x), 'b') for x in b)
'10000011101'
>>> a='P'  # ascii
>>> b='Ρ'  # utf8
>>> a==b
False
>>> ' '.join(format(ord(x), 'b') for x in a)
'1010000'
>>> ' '.join(format(ord(x), 'b') for x in b)
'1110100001'

person ddofborg    schedule 22.10.2017    source источник
comment
Символы UTF-8 — это просто символы Unicode (точнее, кодовые точки), как и UTF-8. это просто кодировка для Unicode. Итак, вы ищете способ найти кодовые точки Unicode, похожие на символы ASCII?   -  person sleske    schedule 22.10.2017
comment
Да, это то, что я имею в виду. Извините, если это было не очевидно.   -  person ddofborg    schedule 22.10.2017
comment
Да, но я не ищу lol~lo1.   -  person ddofborg    schedule 22.10.2017
comment
У вас проблемы с терминологией. Ваш вопрос одинаково актуален для любой системы, использующей Unicode, а не только для тех, в которых строки хранятся с использованием кодировки UTF-8. Все символы, которые вы используете, являются Unicode. Под ASCII вы, кажется, имеете в виду элементы управления C0 и базовую латиницу. UTF-8 не считается расширенным ASCII. Кроме того, ваш for x in a перебирает кодовые точки Unicode, а не кодовые единицы UTF-8. (== сравнивает последовательности единиц кода UTF-8.)   -  person Tom Blodget    schedule 22.10.2017


Ответы (1)


Это очень полезный инструмент, так как он покажет вам всех персонажей, которые выглядят похожими, и вы сможете выбрать, ДЕЙСТВИТЕЛЬНО ли они похожи для вас :)

https://unicode.org/cldr/utility/confusables.jsp?a=test&r=None

Некоторые другие ресурсы:

person ddofborg    schedule 22.10.2017