如何在PHP中构建Urdu词干库?

时间:2015-05-16 19:41:35

标签: php api

有许多词干库,但它们使用其他语言,但我需要一个API或库或算法,用于阻止乌尔都语词汇。我想找到一个单词的词根,例如英文。

  

悲伤=>悲伤

1 个答案:

答案 0 :(得分:1)

此任务有多个库和扩展名。

<强>扩展

PHP-词干

https://github.com/hthetiot/php-stemmer

<强>库

这些Porter-Stemmer库也可以完成这项工作(至少对于英语部分而言):

PHP Morhpy

http://phpmorphy.sourceforge.net/dokuwiki/

-

乌尔都语是一种混合语言。所以&#34;基本&#34; Porter-Stemming是不够的(并且可能仅适用于乌尔都语的英语部分)。您必须为语言规则建模。由于形态丰富,乌尔都语语言对NLP来说真的很具挑战性。

如果你想实现一个基于规则的词干分析器,那么看一下本文,它解释了所使用的算法:&#34; Rule Based Stemmer in Urdu&#34;作者:Vaishali Gupta,Nisheeth Joshi ,Iti Mathur。