使用javascript打破全文中的字符串(中文,阿拉伯语,日语,俄语,韩语,荷兰语,印地语,希腊语,乌尔都语)

时间:2010-10-26 06:43:11

标签: php javascript

我正致力于语言分割项目。我通过使用正则表达式打破字符串来应用英语语言分段。 (“完全停止”)。现在我想提供以下语言的支持(中文,阿拉伯语,日语,俄语,韩语,荷兰语,印地语,希腊语,乌尔都语)。我想在句号上打破上面提到的语言字符串。

e.g。

对于中文完全停止是。(Unicode值U + 3002) 串

以有效應對各種事態」。他還表示,希望以符合21世紀的方式切實深化美日同盟關係。

预期结果

Segment 1 :- 以有效應對各種事態」。
Segment 2 :- 他還表示,希望以符合21世紀的方式切實深化美日同盟關係。

我必须申请其他语言(阿拉伯语,日语,俄语,韩语,荷兰语,印地语,希腊语,乌尔都语)。

2 个答案:

答案 0 :(得分:1)

String.split。您可以使用/([。])/作为正则表达式分隔符。在方括号内添加其他标点字符。圆括号将capture your delimiters

答案 1 :(得分:0)

在php中,您可以使用preg_split( REGEX , $yourString );

将单词REGEX替换为正则表达式。可能就像@janmoesen提到的那样。