Question

我正在尝试创建一个正则表达式，只过滤英语和日语中的字母或数字。这就是我尝试过的，

preg_match('/(?![\n\r])[\x00-\x1F\x80-\xFF][^\x4e00-\x9fa0)]/u', $value)

但我没有得到理想的结果。我可能做错了什么？

Answer 1

根据@ÁlvaroGonzález关于三个字母的通知更新了字符列表。

这个正则表达式应该按照你的期望做到：

preg_match('/[\p{L}\p{N}\p{Katakana}\p{Hiragana}\p{Han}]+/u', $value)

\p{L}将匹配任何字母，\p{N}任意数字，\p{Katakana}将匹配任何片假名字符等...

如果您不匹配单个单词

，则可能需要在接受的字符中添加单词分隔符

Answer 2

以下正则表达式检查该行不是日语：

if(!preg_match('/^[\x{3041}-\x{3096}\x{30a1}-\x{30fc}\x{4e00}-\x{9faf}]+$/u', $line)){
    // ...
}