如何在Hunspell中表示词干异常

时间:2015-02-27 20:32:56

标签: solr hunspell

我正在使用Hunspell来阻止SOLR实例的单词。在大多数情况下,它似乎运作良好。

我正在使用OpenOffice dic / aff文件。

但是,有一些值得注意的单词例外,我希望能够删除这些作为词干的候选者。

一个很好的例子是“滑雪者”,由于以下因素而导致“天空”:

in the .dic file
sky/MDRSGZ

relevant rule in the .aff file
SFX R   y     ier        [^aeiou]y

有没有办法表明skierskier应该一个人留下?

2 个答案:

答案 0 :(得分:0)

是的,这是非常常见的事情,只需删除" R"

sky/MDSGZ

但是你可能想要重新加入另一条线"滑雪"以及它的任何其他版本。

skier/MS

我不得不对此文件进行大量更改,现在真的希望有更好的选择。 例如

  • 黄油 - >对接
  • 角落 - >玉米
  • 复活节 - >东

然后另一个真的令人困惑,

  • 风= =伤口

在我们的网站上修改之前,如果你在风力发电中寻找风能"你最后得到了一堆瘀伤和血腥的伤口。 因为"伤口"就像在"我伤害时钟"源于风。

我们还决定删除所有RE前缀。因为像

这样的事情
  • 非凡 - >标记
  • 删除 - >移动
  • 重置 - >设置
  • 恢复 - >存储

因此,如果您知道更好的字典,请告诉我。 (我认为主要的问题是这本词典更适用于拼写检查,然后用于词干)

我愿意为一个真正的词干词典开始和/或贡献一个git项目,用这个替换这个拼写词典。

答案 1 :(得分:0)

你尝试过freeling吗?它是开源的。

演示页面在这里: http://nlp.lsi.upc.edu/freeling/demo/demo.php

当我选择英语,pos标记时,我得到以下结果:

you wound the clock?

you wind the clock? 
PRP VBD   DT  NN  ?
也是滑雪者,风力都得到名词词干。它是一个很棒的干扰器和分析仪。

不确定许可。下载页面: http://devel.cpl.upc.edu/freeling/downloads?order=time&desc=1