Question

我正在寻找克罗地亚语词干算法的实现。理想情况下是Java，但我也会接受任何其他语言。

是否有某个英语口语开发者社区，他们正在为克罗地亚语开发搜索应用程序？

谢谢，

Answer 1

斯拉夫语言非常inflective。最准确和最快速的方法是规则和大型映射/词典的组合。

工作已经完成，但已被阻止。 The Croatian morphological lexicon会有所帮助，但它背后是一个缓慢的API。在波斯尼亚人，塞尔维亚人和克罗地亚人之间可以找到更多的工作，而不仅仅是克罗地亚人。

大型映射并不总是方便（并且可以从映射/字典/语料库中有效地构建更好的规则转换器。）

使用Hunspell和affix文件实现可能是获得社区和Java支持的好方法。例如。 Google search: hr_hr.aff

未经测试：应该能够反转所有单词，构建结尾字符的trie，使用一些规则（例如LCS）遍历并使用语料库文本构建精确的统计变换器。

我能做的最好的是一些python：

import hunspell
hs = hunspell.HunSpell(
         '/usr/share/myspell/hr_HR.dic', 
         '/usr/share/myspell/hr_HR.aff')

# The following should return ['hrvatska']:
print hs.stem('hrvatski')

Answer 2

在这里你可以找到最近在python中对ffzg进行的实现 - stemmer for croatian。

我们对词形化的报纸语料库中的词干分析器进行了基本评估，作为金标准，精度为0.986，回忆起形容词和名词的0.961（F1 0.973）。在所有词类中，我们获得了0.98的精确度，并且召回了0.92（F1 0.947）。

它是在GNU许可下发布的，但请随时联系作者以获得进一步的帮助（我只知道原作者Nikola，但不知道他的学生）。

是否有克罗地亚语词干算法的实现？

2 个答案: