полный список всех индексов и диакритических знаков в юникоде

Ответил: http://www.unicode.org/Public/UNIDATA/UnicodeData.txt - это список всех символов Unicode, а 0xcc99 # U + 0319 COMBINING RIGHT TACK BELOW чем-то похож на запятую для моноширинного шрифта .. (пример: 10̡9̡8̡7̡6̡5̡4̡3̡2̡1̡0̡)

Есть ли полный список всех символов Юникода вместе с их словесными описаниями, например список строк вроде ... 0xcc99 # U + 0319 КОМБИНИРОВАНИЕ ПРАВЫЙ TACK НИЖЕ ..

В частности, какой диакритический знак использовать для ввода 1. или 2 o 3? Мотивация состоит в том, что я хочу иметь возможность добавлять точку или запятую в моноширинный шрифт в терминале без фактического добавления символа.


person John Quilder    schedule 29.12.2011    source источник


Ответы (3)


Нет полного списка всех символов Unicode вместе с их словесными описаниями, даже нет их списка с их именами Unicode. Файлы UnicodeData.txt обычно относятся к большим диапазонам символов, например

4E00;<CJK Ideograph, First>;Lo;0;L;;;;;N;;;;;
9FCB;<CJK Ideograph, Last>;Lo;0;L;;;;;N;;;;;

а также

AC00;<Hangul Syllable, First>;Lo;0;L;;;;;N;;;;;
D7A3;<Hangul Syllable, Last>;Lo;0;L;;;;;N;;;;;

Можно было бы составить полный список с именами Unicode, но какова была бы цель? Имена Unicode, такие как COMBINING PALATALIZED HOOK BELOW, являются идентификаторами, а не описаниями. Взятые как тексты на английском языке, некоторые из них интуитивно описательны, некоторые очень расплывчаты, некоторые неясны, а некоторые совершенно неверны - и никогда не будут изменены из-за принципа стабильности. Принцип в значительной степени обусловлен использованием имен Unicode в программах; их нельзя изменять по тем же причинам, по которым нельзя изменять номера Unicode.

Некоторые имена Unicode для диакритических знаков также вводят в заблуждение или, по крайней мере, неполны. Форма диакритического знака не может быть выведена из одного только имени Unicode, и форма может даже сильно различаться (например, t с caron - это ť в нижнем регистре, при этом диакритический знак выглядит как conna, тогда как соответствующая заглавная буква Ť имеет .. ну кароноподобный карон).

Использование символов типа U + 0319 и U + 0321 в ваших текстовых данных подразумевает, что потребуется относительно обширный шрифт и относительно продвинутое программное обеспечение для рендеринга, которое отображает хорошо сочетающиеся диакритические знаки. Более того, если вы собираетесь использовать их в значениях и контекстах, для которых они не предназначены (они предназначены для использования в фонетических обозначениях, где они связаны с буквами для обозначения особенностей произношения), вам может потребоваться плохой программное обеспечение, которое реализует их ненадлежащим образом (с учетом предполагаемого использования и рендеринга). Например, U + 0319 должен отображаться под буквой

person Jukka K. Korpela    schedule 29.12.2011
comment
Да, вы правы, мне нужен список символов Юникода с их английскими описаниями; Цель списка - найти символ с помощью grep и использовать регулярные выражения для анализа внешнего вида символа. - person John Quilder; 29.12.2011
comment
мое приложение выглядит следующим образом: иногда я работаю в командной строке в xterm с программами, которые выводят длинные числа, которые мне трудно читать. Поэтому я хочу использовать диакритические знаки для добавления точек или запятых, чтобы 2938485860 стало 2.938.485.860, а форматирование сохранялось. U + 0321 для этого не годится .... - person John Quilder; 29.12.2011

Да, он находится на компакт-диске, поставляемом с TUS, или его можно загрузить с unicode.org: База данных символов Юникода.

person bmargulies    schedule 29.12.2011

"мое приложение выглядит следующим образом: иногда я работаю в командной строке в xterm с программами, которые выводят длинные числа, которые мне трудно читать. Поэтому я хочу использовать диакритические знаки для добавления точек или запятых, чтобы 2938485860 стало 2.938.485.860 и форматирование сохранялось. U + 0321 для этого не годится .... "

Если вы хотите добавить точки к числам, встроенным в строку, есть способ сделать это. В юникоде есть набор «закрытых буквенно-цифровых символов», который включает числа с завершающими точками.

2.938.485.860 -> ⒉93⒏48⒌860

Обратите внимание, что в терминале они могут быть нечитаемыми. В качестве альтернативы вы можете попробовать

  • 2⑨38④85⑧60 - использование чисел в кружках на каждой третьей цифре (тоже некрасиво)
  • 2̲9384̲8̲5̲860 - с использованием - подчеркнутые символы
  • 2????38????85????60 - изменение некоторых цифр на "МАТЕМАТИЧЕСКИЕ ЦИФРЫ ЖИРНОЙ ЦИФРЫ SANS-SERIF"
person Ant6n    schedule 10.05.2014