我正在命令行中使用coreNLP工具标记一些包含德语文本的文件。我需要获取令牌,pos,引理和ner注释。为此,我使用以下命令:
java -cp“ *” -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -注释符标记化,分割,pos,引理,内 -filelist $ dir / filelist.input -outputFormat conll- -add-modules java.se.ee -ner.useSUTime 0 -outputFormatOptions word,pos,lemma,ner -outputDirectory $ dir / tagged_articles -replaceExtension -props StanfordCoreNLP-german.properties
但是,我得到的引理不正确。这是一个带标签文件的示例:
很多ADV很多O
eine ART eine O
ausgereifte ADJA ausgereifte O
Technik NN technik O
kann VMFIN坎恩O
jedoch ADV jedoch O
APPR a O
ihre PPOSAT ihre O
Grenzen NN grenzen O
stoßenVVINFstoßenO
其中一些词的引理应该是:ist-> sein / Textmengen-> Textmenge / enormen-> enorm / Grenzen-> Grenze。因此,显然有问题,我想知道这可能是什么。任何提示都非常感谢!
我正在使用以下德国模型:stanford-german-corenlp-2018-02-27-models.jar
根据README文件,coreNLP工具的版本为“ 2018-02-27 3.9.1”
java版本“ 10.0.1” 2018-04-17
Java(TM)SE运行时环境18.3(内部版本10.0.1 + 10)