是否有克罗地亚语词干算法的实现?

时间:2011-06-28 05:16:56

标签: stemming porter-stemmer

我正在寻找克罗地亚语词干算法的实现。理想情况下是Java,但我也会接受任何其他语言。

是否有某个英语口语开发者社区,他们正在为克罗地亚语开发搜索应用程序?

谢谢,

2 个答案:

答案 0 :(得分:6)

斯拉夫语言非常inflective。最准确和最快速的方法是规则和大型映射/词典的组合。

工作已经完成,但已被阻止。 The Croatian morphological lexicon会有所帮助,但它背后是一个缓慢的API。在波斯尼亚人,塞尔维亚人和克罗地亚人之间可以找到更多的工作,而不仅仅是克罗地亚人。

大型映射并不总是方便(并且可以从映射/字典/语料库中有效地构建更好的规则转换器。)

使用Hunspell和affix文件实现可能是获得社区和Java支持的好方法。例如。 Google search: hr_hr.aff

未经测试:应该能够反转所有单词,构建结尾字符的trie,使用一些规则(例如LCS)遍历并使用语料库文本构建精确的统计变换器。

我能做的最好的是一些python:

import hunspell
hs = hunspell.HunSpell(
         '/usr/share/myspell/hr_HR.dic', 
         '/usr/share/myspell/hr_HR.aff')

# The following should return ['hrvatska']:
print hs.stem('hrvatski') 

答案 1 :(得分:0)

在这里你可以找到最近在python中对ffzg进行的实现 - stemmer for croatian

  

我们对词形化的报纸语料库中的词干分析器进行了基本评估,作为金标准,精度为0.986,回忆起形容词和名词的0.961(F1 0.973)。在所有词类中,我们获得了0.98的精确度,并且召回了0.92(F1 0.947)。

它是在GNU许可下发布的,但请随时联系作者以获得进一步的帮助(我只知道原作者Nikola,但不知道他的学生)。