我正在寻找一个词形还原软件:
有人知道这样的一个lemmatizer吗?
此致
更新:Daniel先生,首先,感谢您为LanguageTool提供的出色工作。
我们希望将德语文本编入弹性搜索(ES)并使用其中任何一种预先分析文本 一个ES内置德国词干(请参阅https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-stemmer-tokenfilter.html) 要么 以下插件https://github.com/jprante/elasticsearch-analysis-baseform。后者在http://www.danielnaber.de/morphologie/morphy-mapping-20110717.latin1.gz下使用你的形态学文件,这就是为什么我认为你可能有一些评估数据,以便在使用基于形态文件的词形还原而不是ES构建的时候知道什么是权衡。在词干。你可能在德国形态的精确度/覆盖范围方面有一些数字吗?或者与Elasticsearch中使用的德国词干分析器的比较数据?
祝你好运
答案 0 :(得分:1)
LanguageTool可以做到这一点(免责声明:我是LanguageTool的维护者),它可以在LGPL下使用并用Java实现。您可以使用GermanTagger.tag(),结果可以有多个阅读(因为语言通常含糊不清),每个阅读AnalyzedToken
最终都有一个引理。