如何删除字符串中的中文字符

时间:2013-07-29 14:36:53

标签: php regex

是否有任何简单的方法来截断中文字符我发现regexp但它没有按预期工作

<?php
$data1='疯狂的管道Test';
$data2='睡眠帮手-背景乐Test';

echo str_replace(preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data1),'',$data1)
."<br>\n".
str_replace(preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data2),'',$data2);
exit;

适用于data1但不适用于data2

3 个答案:

答案 0 :(得分:11)

您可以使用Unicode character propertyHan应该适合您):

preg_replace("/\p{Han}+/u", '', $data)

工作示例:http://ideone.com/uEiIV5

答案 1 :(得分:7)

尝试此代码(online version @ Ideone.com):

<?php
$data1='疯狂的管道Test';
$data2='睡眠帮手-背景乐Test';

echo preg_replace("/[\x{4e00}-\x{9fa5}]+/u", '', $data1), "\n";
echo preg_replace("/[\x{4e00}-\x{9fa5}]+/u", '', $data2);

// Better use this (credits to Kobi's answer below)
preg_replace("/\p{Han}+/u", '', $data)

我已从正则表达式中删除^,因此我们不再需要 str_replace()

您的旧正则表达式匹配所有非中文字符,因此preg_replace()仅在返回的字符串中留下中文字符。为了获得最终结果,您必须用空字符串替换找到的中文字符。

preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data1) // returns 疯狂的管道
str_replace('疯狂的管道', '', $data1); // gives us Test

第二个正则表达式再次匹配所有非中文字符。但现在,他们在序列中

preg_replace("/[^\x{4e00}-\x{9fa5}]+/u", '', $data2) // returns 睡眠帮手背景乐

此{> 1}}中无法找到此字符串,因此无效。

答案 2 :(得分:0)

这个人也应该做这个工作 /[^\u4E00-\u9FFF]+/