词干 - 代码示例或开源项目?

时间:2009-02-27 15:00:07

标签: algorithm tags nlp stemming

词干是标记系统所需要的。我使用美味,我没有时间管理和修剪我的标签。我对我的博客更加小心,但它并不完美。我为嵌入式系统编写软件,如果它们包括词干,它将更加实用(对用户有帮助)。

例如:
解析
解析器
解析

对于我将它们放入的任何系统,所有这些都意味着相同的事情。

理想情况下,某处有一个BSD许可的词干分析器,但如果没有,我在哪里可以学习常用的算法和技术呢?

除了BSD词干分析器,还有哪些其他开源许可的词干分析器?

- 亚当

4 个答案:

答案 0 :(得分:5)

Snowball词干(C& Java) 我用它的Python绑定,PyStemmer

答案 1 :(得分:5)

查看用python编写的nltk toolkit。它具有非常实用的stemmer

答案 2 :(得分:2)

词干的另一个选择是WordNet,以及one of its APIs。一些basic information on stemming and lemmatization,包括Porter词干算法的描述,可以在Introduction to Information Retrieval在线找到。

答案 3 :(得分:1)

Lucene有一个限制器,我相信(如果你愿意的话,IIRC可让你使用自己的一个)。

编辑:刚刚检查过,Lucence指的是Snowball网站,据我所知,它是一个开源的词干库。