词干是标记系统所需要的。我使用美味,我没有时间管理和修剪我的标签。我对我的博客更加小心,但它并不完美。我为嵌入式系统编写软件,如果它们包括词干,它将更加实用(对用户有帮助)。
例如:
解析
解析器
解析
对于我将它们放入的任何系统,所有这些都意味着相同的事情。
理想情况下,某处有一个BSD许可的词干分析器,但如果没有,我在哪里可以学习常用的算法和技术呢?
除了BSD词干分析器,还有哪些其他开源许可的词干分析器?
- 亚当
答案 0 :(得分:5)
答案 1 :(得分:5)
查看用python编写的nltk toolkit。它具有非常实用的stemmer。
答案 2 :(得分:2)
词干的另一个选择是WordNet,以及one of its APIs。一些basic information on stemming and lemmatization,包括Porter词干算法的描述,可以在Introduction to Information Retrieval在线找到。
答案 3 :(得分:1)