是否有任何简单的方法来截断中文字符我发现regexp但它没有按预期工作
<?php
$data1='疯狂的管道Test';
$data2='睡眠帮手-背景乐Test';
echo str_replace(preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data1),'',$data1)
."<br>\n".
str_replace(preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data2),'',$data2);
exit;
适用于data1但不适用于data2
答案 0 :(得分:11)
您可以使用Unicode character property(Han应该适合您):
preg_replace("/\p{Han}+/u", '', $data)
答案 1 :(得分:7)
尝试此代码(online version @ Ideone.com):
<?php
$data1='疯狂的管道Test';
$data2='睡眠帮手-背景乐Test';
echo preg_replace("/[\x{4e00}-\x{9fa5}]+/u", '', $data1), "\n";
echo preg_replace("/[\x{4e00}-\x{9fa5}]+/u", '', $data2);
// Better use this (credits to Kobi's answer below)
preg_replace("/\p{Han}+/u", '', $data)
我已从正则表达式中删除^
,因此我们不再需要 str_replace()。
您的旧正则表达式匹配所有非中文字符,因此preg_replace()
仅在返回的字符串中留下中文字符。为了获得最终结果,您必须用空字符串替换找到的中文字符。
preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data1) // returns 疯狂的管道
str_replace('疯狂的管道', '', $data1); // gives us Test
第二个正则表达式再次匹配所有非中文字符。但现在,他们在序列中不!
preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data2) // returns 睡眠帮手背景乐
此{> 1}}中无法找到此字符串,因此无效。
答案 2 :(得分:0)
这个人也应该做这个工作
/[^\u4E00-\u9FFF]+/