Нет полного списка всех символов Unicode вместе с их словесными описаниями, даже нет их списка с их именами Unicode. Файлы UnicodeData.txt обычно относятся к большим диапазонам символов, например
4E00;<CJK Ideograph, First>;Lo;0;L;;;;;N;;;;;
9FCB;<CJK Ideograph, Last>;Lo;0;L;;;;;N;;;;;
а также
AC00;<Hangul Syllable, First>;Lo;0;L;;;;;N;;;;;
D7A3;<Hangul Syllable, Last>;Lo;0;L;;;;;N;;;;;
Можно было бы составить полный список с именами Unicode, но какова была бы цель? Имена Unicode, такие как COMBINING PALATALIZED HOOK BELOW, являются идентификаторами, а не описаниями. Взятые как тексты на английском языке, некоторые из них интуитивно описательны, некоторые очень расплывчаты, некоторые неясны, а некоторые совершенно неверны - и никогда не будут изменены из-за принципа стабильности. Принцип в значительной степени обусловлен использованием имен Unicode в программах; их нельзя изменять по тем же причинам, по которым нельзя изменять номера Unicode.
Некоторые имена Unicode для диакритических знаков также вводят в заблуждение или, по крайней мере, неполны. Форма диакритического знака не может быть выведена из одного только имени Unicode, и форма может даже сильно различаться (например, t с caron - это ť в нижнем регистре, при этом диакритический знак выглядит как conna, тогда как соответствующая заглавная буква Ť имеет .. ну кароноподобный карон).
Использование символов типа U + 0319 и U + 0321 в ваших текстовых данных подразумевает, что потребуется относительно обширный шрифт и относительно продвинутое программное обеспечение для рендеринга, которое отображает хорошо сочетающиеся диакритические знаки. Более того, если вы собираетесь использовать их в значениях и контекстах, для которых они не предназначены (они предназначены для использования в фонетических обозначениях, где они связаны с буквами для обозначения особенностей произношения), вам может потребоваться плохой программное обеспечение, которое реализует их ненадлежащим образом (с учетом предполагаемого использования и рендеринга). Например, U + 0319 должен отображаться под буквой
person
Jukka K. Korpela
schedule
29.12.2011