我正在使用Hunspell来阻止SOLR实例的单词。在大多数情况下,它似乎运作良好。
我正在使用OpenOffice dic / aff文件。
但是,有一些值得注意的单词例外,我希望能够删除这些作为词干的候选者。
一个很好的例子是“滑雪者”,由于以下因素而导致“天空”:
in the .dic file
sky/MDRSGZ
relevant rule in the .aff file
SFX R y ier [^aeiou]y
有没有办法表明skier
和skier
应该一个人留下?
答案 0 :(得分:0)
是的,这是非常常见的事情,只需删除" R"
sky/MDSGZ
但是你可能想要重新加入另一条线"滑雪"以及它的任何其他版本。
skier/MS
我不得不对此文件进行大量更改,现在真的希望有更好的选择。 例如
然后另一个真的令人困惑,
在我们的网站上修改之前,如果你在风力发电中寻找风能"你最后得到了一堆瘀伤和血腥的伤口。 因为"伤口"就像在"我伤害时钟"源于风。
我们还决定删除所有RE前缀。因为像
这样的事情因此,如果您知道更好的字典,请告诉我。 (我认为主要的问题是这本词典更适用于拼写检查,然后用于词干)
我愿意为一个真正的词干词典开始和/或贡献一个git项目,用这个替换这个拼写词典。
答案 1 :(得分:0)
演示页面在这里: http://nlp.lsi.upc.edu/freeling/demo/demo.php
当我选择英语,pos标记时,我得到以下结果:
you wound the clock?
you wind the clock?
PRP VBD DT NN ?
也是滑雪者,风力都得到名词词干。它是一个很棒的干扰器和分析仪。
不确定许可。下载页面: http://devel.cpl.upc.edu/freeling/downloads?order=time&desc=1