Stanford CoreNLP-无法正确识别引理

时间:2018-08-23 14:32:40

标签: java command-line nlp stanford-nlp

我正在命令行中使用coreNLP工具标记一些包含德语文本的文件。我需要获取令牌,pos,引理和ner注释。为此,我使用以下命令:

java -cp“ *” -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -注释符标记化,分割,pos,引理,内 -filelist $ dir / filelist.input -outputFormat conll- -add-modules java.se.ee -ner.useSUTime 0 -outputFormatOptions word,pos,lemma,ner -outputDirectory $ dir / tagged_articles -replaceExtension -props StanfordCoreNLP-german.properties

但是,我得到的引理不正确。这是一个带标签文件的示例:

很多ADV很多O

eine ART eine O

ausgereifte ADJA ausgereifte O

Technik NN technik O

kann VMFIN坎恩O

jedoch ADV jedoch O

APPR a O

ihre PPOSAT ihre O

Grenzen NN grenzen O

stoßenVVINFstoßenO

其中一些词的引理应该是:ist-> sein / Textmengen-> Textmenge / enormen-> enorm / Grenzen-> Grenze。因此,显然有问题,我想知道这可能是什么。任何提示都非常感谢!

我正在使用以下德国模型:stanford-german-corenlp-2018-02-27-models.jar

根据README文件,coreNLP工具的版本为“ 2018-02-27 3.9.1”

java版本“ 10.0.1” 2018-04-17

Java(TM)SE运行时环境18.3(内部版本10.0.1 + 10)

1 个答案:

答案 0 :(得分:1)

到目前为止,仅英语支持引理:

Supported human languages

您可以尝试使用其他lemmatizer并手动添加lemmas。