应用错误收集

我正在命令行中使用coreNLP工具标记一些包含德语文本的文件。我需要获取令牌，pos，引理和ner注释。为此，我使用以下命令：

java -cp“ *” -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -注释符标记化，分割，pos，引理，内 -filelist $ dir / filelist.input -outputFormat conll- -add-modules java.se.ee -ner.useSUTime 0 -outputFormatOptions word，pos，lemma，ner -outputDirectory $ dir / tagged_articles -replaceExtension -props StanfordCoreNLP-german.properties

但是，我得到的引理不正确。这是一个带标签文件的示例：

很多ADV很多O

eine ART eine O

ausgereifte ADJA ausgereifte O

Technik NN technik O

kann VMFIN坎恩O

jedoch ADV jedoch O

APPR a O

ihre PPOSAT ihre O

Grenzen NN grenzen O

stoßenVVINFstoßenO

其中一些词的引理应该是：ist-> sein / Textmengen-> Textmenge / enormen-> enorm / Grenzen-> Grenze。因此，显然有问题，我想知道这可能是什么。任何提示都非常感谢！

我正在使用以下德国模型：stanford-german-corenlp-2018-02-27-models.jar

根据README文件，coreNLP工具的版本为“ 2018-02-27 3.9.1”

java版本“ 10.0.1” 2018-04-17

Java（TM）SE运行时环境18.3（内部版本10.0.1 + 10）

Stanford CoreNLP-无法正确识别引理

1 个答案: