是否有任何Lucene词干器能够处理莎士比亚英语?

时间:2015-06-25 17:34:04

标签: solr lucene nlp stemming

我正在尝试将一些旧文档编入索引 - 16,17,18世纪。

现代词干分子似乎没有处理过时的词语结尾:worketh,liveth,walketh。

从莎士比亚和詹姆斯国王圣经时代起,是否有专门研究英语的词干?我目前正在使用solr.PorterStemFilterFactory

1 个答案:

答案 0 :(得分:1)

看起来像是rule changes are minimal

因此,可以复制/修改PorterStemmer类和相关的工厂/过滤器。

或者可以在Porter之前将这些特定规则添加为正则表达式过滤器。