Lemmatizer支持德语(用于商业和研究目的)

时间:2015-05-08 14:58:44

标签: machine-learning nlp linguistics

我正在寻找一个词形还原软件:

  • 支持德语
  • 拥有许可证,可用于商业和研究目的。 LGPL许可证会很好。
  • 最好用Java实现。其他编程语言的实现也可以。

有人知道这样的一个lemmatizer吗?

此致

更新:Daniel先生,首先,感谢您为LanguageTool提供的出色工作。

我们希望将德语文本编入弹性搜索(ES)并使用其中任何一种预先分析文本  一个ES内置德国词干(请参阅https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stemmer-tokenfilter.html) 要么 以下插件https://github.com/jprante/elasticsearch-analysis-baseform。后者在http://www.danielnaber.de/morphologie/morphy-mapping-20110717.latin1.gz下使用你的形态学文件,这就是为什么我认为你可能有一些评估数据,以便在使用基于形态文件的词形还原而不是ES构建的时候知道什么是权衡。在词干。你可能在德国形态的精确度/覆盖范围方面有一些数字吗?或者与Elasticsearch中使用的德国词干分析器的比较数据?

祝你好运

1 个答案:

答案 0 :(得分:1)

LanguageTool可以做到这一点(免责声明:我是LanguageTool的维护者),它可以在LGPL下使用并用Java实现。您可以使用GermanTagger.tag(),结果可以有多个阅读(因为语言通常含糊不清),每个阅读AnalyzedToken最终都有一个引理。