我正在为我正在开发的项目提供一个很好的词干算法。有人建议我看看Porter Stemmer。当我查看Porter stemmer上的页面时,我发现它现在已经被弃用,而不是“Snowball”词干分析器。
我需要一个好的词干,但我真的不能花大量时间来实现(或优化)我自己的。什么是最好的“现成的”,免费提供的干扰器?是否有合理价格的非自由阀杆?或者,Snowball阻尼器是我最好的选择吗?
答案 0 :(得分:8)
Porter2限制器是我决定使用的。似乎搬运工的主干是标准,但当我找到作者的页面时,他推荐了“Snowball(Porter2)”的限制器。此页面上有一个C端口链接。
答案 1 :(得分:2)
这实际上取决于您计划如何应用它。自然语言工具包(http://nltk.sourceforge.net)在其中实现了许多应该能够处理大多数应用程序的词干分析器。我更喜欢Morphy的干细胞。
当然,它可以在Python中使用,因此如果您正在使用其他语言,您可以随时查看代码以收集算法并将其转换为您选择的语言。 Python具有很强的可读性。