有一个红宝石词干https://github.com/aurelian/ruby-stemmer,但它1)不会阻止英语不规则动词2)无法在Windows上构建原生扩展。是否有其他方法可以解决至少一个问题?
答案 0 :(得分:6)
我认为你应该寻找一个变形器(它有关于形态学的信息并且可以处理不规则的单词),而不是一个词干分析器(通常只是单词的两端)。请参阅Manning,Raghavan和Schütze关于信息检索的在线书籍中的this explanation。
我还没有尝试过,但是快速搜索了这个Ruby的英文引理词:elemma。
可以进行词形还原的常用(非Ruby)英语形态分析器是morpha。
答案 1 :(得分:4)
没有一个词干分子能用英语处理不规则动词。
答案 2 :(得分:1)
我在使用基于ruby的NLP http://mendicantbug.com/2009/09/13/nlp-resources-for-ruby/
进行Google搜索时发现了这一点