Question

我遇到了有关注释德语语料库的一些问题，而英语语料库是正常的。例如：

原句： （照片来源）RI董事Kjell-ÅkeÅkesson（施韦登），印度国家开发局局长Mitglied des NID-Tea女士，位于印度的Impedung eines Kindes。

注释句：

（_ XY Foto_NN unten_ADV）_CARD RI_NE Director_NE Kjell-胈NE
ke_XY胈XY
kesson_NE（_VVFIN Schweden_NE） NE， $，Mitglied_NN des_ART NID-Teams_NN，_ $，是i_APPR der_ART Impfung_NN eines_ART Kindes_NN in_APPR印度_ .. $。

在这种情况下，字符“Å”将引起更改并引起换行，因此整个语料库将增加4000行。

顺便说一下，我的程序命令如下：

java -mx8g -classpath stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -tokenize false -sentenceDelimiter newline -model models/german-hgc.tagger -textFile /data/mmyin/wmt17_de_en/test_1 > /data/mmyin/wmt17_de_en/test_pos

Answer 1

嗨，我建议使用完整的管道。

您可以在这里下载：

https://stanfordnlp.github.io/CoreNLP/

以下是在德语文本上运行的示例命令：

java -Xmx4g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-german.properties -annotators tokenize,ssplit,pos -file example.txt -outputFormat text

Answer 2

@StanfordNLPHelp

感谢您的回复！这对我有帮助。但是，我有一些问题。首先，该工具包可以处理大约500万行德语语料库，但是该语料库句子的中间包含一些结尾标点符号，或者有些句子缺少结尾标点符号。因此，可能会出现一些错误。例如：

原句：

在二战前的座右铭“爱迪恩带来了欧罗巴！”在坎帕涅和克什米尔地区进行创新与创新。

带注释的句子：

句子＃1（11个令牌）： demdiesjährigen座右铭“艾迪恩带来了欧罗巴！”

句子＃2（12个令牌）： 香槟和创新与创新之间的冲突。

在这种情况下，我不想将一个句子拆分为两个句子。

最后，输出格式如下

[Text = Unter CharacterOffsetBegin = 0 CharacterOffsetEnd = 5 PartOfSpeech = APPR]。

我只想为句子中的每个单词获取PartOfSpeech，然后输出到一行。

我该怎么办？

使用POS Taggers将引发德语错误的格式

2 个答案: