UCS2 проще использовать в Visual C++, чем в кодировке UTF. Какие языки я не могу поддерживать в кодировке UCS2?
UCS2 против UTF. Какие языки нельзя отображать в кодировке UCS2?
Ответы (2)
Ничего, о чем вы, вероятно, будете заботиться или, что более важно, для чего у вас есть шрифты. UCS2 дает вам базовую многоязычную плоскость; вы можете найти обзоры назначенных плоскостей на сайте Unicode
- 0 — базовая многоязычная плоскость
- 1 — Дополнительный многоязычный уровень (древние символы, клингон и т. д.)
- 2 — Дополнительная идеографическая плоскость (расширения унифицированных идеографов CJK)
- 3 – третичная идеографическая плоскость (древнекитайские иероглифы)
- 14 - Дополнительный самолет специального назначения (символы тегов и их варианты - ?)
Конечно, если у вас действительно есть поддержка UTF-16, вы все равно можете получить доступ ко всем этим, но если вы спрашиваете, можете ли вы игнорировать их, то на практике, вероятно, да.
person
Rup
schedule
24.11.2010
1 Я бы не советовал игнорировать не-BMP самолеты, так как например для японцев эти иероглифы не так уж и редки в названиях, а игнорировать не-BMP вообще очень плохо и ни в коем случае не рекомендуется.
- person Artyom; 25.11.2010
@Artyom Хорошо, спасибо - тогда это символы в SIP? Да, я согласен, что лучше поддерживать все правильно, но без поддержки шрифтов для SIP (и опять же, я никогда не видел их), если вы игнорируете область расширения UTF-16, вы просто получите два неизвестных символа, а не один отображается, что не кажется ужасным компромиссом для дополнительного времени разработки.
- person Rup; 25.11.2010
UCS-2 — это древняя и вызывающая смущение антимилленаристская кодировка 1/17 репертуара Unicode. Всегда используйте только кодировку UTF: все остальное просто сломано. UTF-8 обычно лучше подходит для требований к пространству, UTF-32 обычно лучше для прямой адресации. UTF-16 - худшее из обоих миров, потому что люди путают его с UCS-2.
- person tchrist; 27.11.2010
На веб-сайте Unicode.org есть указатель блоков кода в порядке следования, из которого вы можете увидеть что начиная с Unicode 6.0 плоскость 1 включает:
- Слоговая азбука линейного письма B
- Идеограммы линейного письма B
- Эгейские числа
- Старый курсив
- готика
- угаритский
- Дезерет
- Шавиан
- Османья
- Кипрская слоговая азбука
- Византийские музыкальные символы
- Музыкальные символы
- Символы Тай Сюань Цзин
- Математические буквенно-цифровые символы
и плоскость 2 включает в себя:
- Расширение B унифицированных иероглифов CJK
- Дополнение к идеограммам совместимости CJK
- Теги
- Дополнение к селекторам вариантов
person
Gareth Rees
schedule
24.11.2010