我正致力于语言分割项目。我通过使用正则表达式打破字符串来应用英语语言分段。 (“完全停止”)。现在我想提供以下语言的支持(中文,阿拉伯语,日语,俄语,韩语,荷兰语,印地语,希腊语,乌尔都语)。我想在句号上打破上面提到的语言字符串。
e.g。
对于中文完全停止是。(Unicode值U + 3002) 串
以有效應對各種事態」。他還表示,希望以符合21世紀的方式切實深化美日同盟關係。
预期结果
Segment 1 :- 以有效應對各種事態」。
Segment 2 :- 他還表示,希望以符合21世紀的方式切實深化美日同盟關係。
我必须申请其他语言(阿拉伯语,日语,俄语,韩语,荷兰语,印地语,希腊语,乌尔都语)。
答案 0 :(得分:1)
见String.split。您可以使用/([。])/
作为正则表达式分隔符。在方括号内添加其他标点字符。圆括号将capture your delimiters。
答案 1 :(得分:0)
在php中,您可以使用preg_split( REGEX , $yourString );
将单词REGEX替换为正则表达式。可能就像@janmoesen提到的那样。