我想使用正则表达式识别文本是中文,日文还是德文。
例如我有一些像这样的文字“MainWindow_Button_save” 它的德语翻译是“MainWindow_Button_sparen” 它的中文译名是“MainWindow_Button_保存” 日语是“MainWindow_Button_保存”。
我想要一个找到前缀"MainWindow_Button
的正则表达式,并确定以下文本是中文/日文/德文。我对这段文字不太关心。我唯一关心的是它所处的三种语言中的哪一种。
我所做的只是"^MainWindow_Button_[^a-zA-Z]*"
,但我如何识别语言?
答案 0 :(得分:0)
我尝试使用例如here
的正则表达式我建议得到中文/日文的第一个和最后一个字符并加上正则表达式" MainWindow_Button _( [保存] )+&# 34;,以便它匹配任何中国/日本字符
如果不使用正则表达式,我会在java中以其他方式建议如下:
在" MainWindow_Button _"之后读取第一个字符的UNICODE值,并验证unicode值是中文字符集还是日文字符集,如果不是两者,那么它将是德语。
答案 1 :(得分:0)
以下正则表达式将有助于提供文本为中文或日文的验证: ^ [\ u3000- \ u9FFF] + $