如何使用不使用英文字母的语言对单词进行词形翻译?

时间:2017-03-09 15:46:37

标签: python nlp nltk lemmatization

非英文字母我的意思是乌尔都语,印地语等语言。 有人可以建议我通路吗?

PS:不得标记为Lemmatization of non-English words?的副本。这里的背景是不同的。我的意思是完全不使用英文字母的语言。另一个问题一般是指不是英语的语言。

1 个答案:

答案 0 :(得分:2)

用拉丁语,阿拉伯语,梵文或西里尔字母书写的语法语言没有区别。 Unicode允许所有这些脚本(以及许多其他脚本)以相同的方式表示和处理,因此只要写入系统基于发音,相同的技术和算法就可以用于词形还原。

从技术上讲,您的问题与您关联的问题"Lemmatization of non-English words?"之间存在差异。尽管如此,我并没有将它标记为副本,因为你真正的问题是"如何将Hindi / Urdu"解释,而这个问题在那里没有得到解答,因为Pattern不支持这种语言。