我正致力于语言细分项目。我想为阿拉伯语和乌尔都语语言细分提供支持。我通过在各自的语言中使用标点符号(Breaking characters)将句子分成不同的段。我正在使用Javascript正则表达式来打破句子。
noBreakRgx.lang = [/[\u06D4\u061F]+/g, /\d\u06D4/g];
breakRgx.lang = [/(.)+?([\u06D4\u061F](?=|$)|$)/g];
但我无法找到阿拉伯语或乌尔都语的破句。打破标点符号句子所需的建议。使用标点符号后的阿拉伯语或乌尔都语。
ARABIC FULL STOP - U+06D4
ARABIC QUESTION MARK - U+061F
ARABIC COMMA - U+060C
ARABIC SEMICOLON - U+061B
ARABIC DECIMAL SEPARATOR - U+066B
感谢高级。