标签: solr lucene nlp stemming
我正在尝试将一些旧文档编入索引 - 16,17,18世纪。
现代词干分子似乎没有处理过时的词语结尾:worketh,liveth,walketh。
从莎士比亚和詹姆斯国王圣经时代起,是否有专门研究英语的词干?我目前正在使用solr.PorterStemFilterFactory。
solr.PorterStemFilterFactory
答案 0 :(得分:1)
看起来像是rule changes are minimal。
因此,可以复制/修改PorterStemmer类和相关的工厂/过滤器。
或者可以在Porter之前将这些特定规则添加为正则表达式过滤器。