使用POS Taggers将引发德语错误的格式

时间:2018-07-20 08:02:20

标签: stanford-nlp

我遇到了有关注释德语语料库的一些问题,而英语语料库是正常的。 例如:

原句: (照片来源)RI董​​事Kjell-ÅkeÅkesson(施韦登),印度国家开发局局长Mitglied des NID-Tea女士,位于印度的Impedung eines Kindes。

注释句:

  1. (_ XY Foto_NN unten_ADV)_CARD RI_NE Director_NE Kjell-胈NE
  2. ke_XY胈XY
  3. kesson_NE(_VVFIN Schweden_NE) NE, $,Mitglied_NN des_ART NID-Teams_NN,_ $,是i_APPR der_ART Impfung_NN eines_ART Kindes_NN in_APPR印度_ .. $。

在这种情况下,字符“Å”将引起更改并引起换行,因此整个语料库将增加4000行。

顺便说一下,我的程序命令如下:

java -mx8g -classpath stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -tokenize false -sentenceDelimiter newline -model models/german-hgc.tagger -textFile /data/mmyin/wmt17_de_en/test_1 > /data/mmyin/wmt17_de_en/test_pos

2 个答案:

答案 0 :(得分:0)

嗨,我建议使用完整的管道。

您可以在这里下载:

https://stanfordnlp.github.io/CoreNLP/

以下是在德语文本上运行的示例命令:

java -Xmx4g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-german.properties -annotators tokenize,ssplit,pos -file example.txt -outputFormat text

答案 1 :(得分:0)

@StanfordNLPHelp

感谢您的回复!这对我有帮助。但是,我有一些问题。 首先,该工具包可以处理大约500万行德语语料库,但是该语料库句子的中间包含一些结尾标点符号,或者有些句子缺少结尾标点符号。因此,可能会出现一些错误。例如:

原句:

在二战前的座右铭“爱迪恩带来了欧罗巴!”在坎帕涅和克什米尔地区进行创新与创新。

带注释的句子:

句子#1(11个令牌): demdiesjährigen座右铭“艾迪恩带来了欧罗巴!”

句子#2(12个令牌): 香槟和创新与创新之间的冲突。

在这种情况下,我不想将一个句子拆分为两个句子。

最后,输出格式如下

[Text = Unter CharacterOffsetBegin = 0 CharacterOffsetEnd = 5 PartOfSpeech = APPR]。

我只想为句子中的每个单词获取PartOfSpeech,然后输出到一行。

我该怎么办?