Обнаружение китайского (многобайтового) символа в строке

$str = "This is a string containing 中文 characters. Some more characters - 中华人民共和国 ";

Как определить китайские символы в этой строке и распечатать часть, которая начинается с первого символа и заканчивается знаком «-»? (это будет «中文 символов. Еще несколько символов -»).

Спасибо!

php multibyte cjk

Community 11.10.2009 источник

Ответы (2)

arrow_upward
10
arrow_downward

Я решил эту проблему с помощью preg_match и регулярных выражений:

$str = "This is a string containing 中文 characters. Some more characters - 中华人民共和国 ";

preg_match(/[\x{4e00}-\x{9fa5}]+.*\-/u, $str, $matches);

Community 21.10.2009

comment

Спасибо за это ... любопытно, где документирована возможность использования \ x {unicode #}? - philfreo; 19.10.2010

arrow_upward
0
arrow_downward

Сохраняет ли PHP это как Unicode? Если это так, в худшем случае вы можете пройти по строке, символ за символом, пока не найдете те, которые находятся в китайском диапазоне.

Проверьте это тоже PHP: Unicode - Руководство

bugmagnet 11.10.2009

comment

@Josh - если вы последуете предложению boost, возможно, вы также захотите посмотреть ответ VonC на этот вопрос: stackoverflow.com/questions/1366068/ - JV.; 11.10.2009

comment

@boost, да, php хранит строку в юникоде. Но как мне этого добиться? Я не очень хорошо разбираюсь в php. @JV, спасибо, я посмотрю. - ; 11.10.2009

comment

если вы не конвертируете его в форму NCR, у него есть шанс повредить персонажей во время транзакций. - Raptor; 20.10.2009

Обнаружение китайского (многобайтового) символа в строке

Ответы (2)

Вопросы по теме