根据不存在的空间拆分乌尔都语单词

时间:2015-12-05 10:03:04

标签: c# regex urdu

我有一个乌尔都语单词“لاعلم”和更相似的单词。如何在数组中分别单词“لا”和“علم”?我尝试将单词转换为unicode字符,但我可以检测“لا”和“علم”之间的中断。

英语单词可以根据空格轻松分隔,但我仍然坚持将乌尔都语单词分开,没有空格。

1 个答案:

答案 0 :(得分:4)

没有空间,因为它的一个单词意思是“无知”。事实上,“لا”和“علم”分开并不意味着什么。

在乌尔都语(和阿拉伯语脚本)中插入空格,以便在字体自动将其与相邻字符连接时划分字词的实际需要。可以撤消连字的唯一方法是在字符之间插入多余的空格。从技术上讲,ZERO WIDTH NON-JOINER(U + 200C)正是为了这个目的,但是人类学习起来很慢而且空间很容易插入。

有些字符不会与以下字母连接,例如,“ا”不会与任何后续字符连接,但可以使用前面的字符(如“ل”)来形成连字“لا”。您可以使用此list字符(阿拉伯语的相同规则)并编写一个自定义调色剂,在“正确加入”字符,ZWNJ或空格后结束单词。