有许多词干库,但它们使用其他语言,但我需要一个API或库或算法,用于阻止乌尔都语词汇。我想找到一个单词的词根,例如英文。
悲伤=>悲伤
答案 0 :(得分:1)
此任务有多个库和扩展名。
<强>扩展强>
干
PHP-词干
https://github.com/hthetiot/php-stemmer
<强>库强>
这些Porter-Stemmer库也可以完成这项工作(至少对于英语部分而言):
PHP Morhpy
http://phpmorphy.sourceforge.net/dokuwiki/
-
乌尔都语是一种混合语言。所以&#34;基本&#34; Porter-Stemming是不够的(并且可能仅适用于乌尔都语的英语部分)。您必须为语言规则建模。由于形态丰富,乌尔都语语言对NLP来说真的很具挑战性。
如果你想实现一个基于规则的词干分析器,那么看一下本文,它解释了所使用的算法:&#34; Rule Based Stemmer in Urdu&#34;作者:Vaishali Gupta,Nisheeth Joshi ,Iti Mathur。