我遇到了有关注释德语语料库的一些问题,而英语语料库是正常的。 例如:
原句: (照片来源)RI董事Kjell-ÅkeÅkesson(施韦登),印度国家开发局局长Mitglied des NID-Tea女士,位于印度的Impedung eines Kindes。
注释句:
在这种情况下,字符“Å”将引起更改并引起换行,因此整个语料库将增加4000行。
顺便说一下,我的程序命令如下:
java -mx8g -classpath stanford-postagger.jar edu.stanford.nlp.tagger.maxent.MaxentTagger -tokenize false -sentenceDelimiter newline -model models/german-hgc.tagger -textFile /data/mmyin/wmt17_de_en/test_1 > /data/mmyin/wmt17_de_en/test_pos
答案 0 :(得分:0)
嗨,我建议使用完整的管道。
您可以在这里下载:
https://stanfordnlp.github.io/CoreNLP/
以下是在德语文本上运行的示例命令:
java -Xmx4g edu.stanford.nlp.pipeline.StanfordCoreNLP -props StanfordCoreNLP-german.properties -annotators tokenize,ssplit,pos -file example.txt -outputFormat text
答案 1 :(得分:0)
@StanfordNLPHelp
感谢您的回复!这对我有帮助。但是,我有一些问题。 首先,该工具包可以处理大约500万行德语语料库,但是该语料库句子的中间包含一些结尾标点符号,或者有些句子缺少结尾标点符号。因此,可能会出现一些错误。例如:
原句:
在二战前的座右铭“爱迪恩带来了欧罗巴!”在坎帕涅和克什米尔地区进行创新与创新。
带注释的句子:
句子#1(11个令牌): demdiesjährigen座右铭“艾迪恩带来了欧罗巴!”
句子#2(12个令牌): 香槟和创新与创新之间的冲突。
在这种情况下,我不想将一个句子拆分为两个句子。
最后,输出格式如下
[Text = Unter CharacterOffsetBegin = 0 CharacterOffsetEnd = 5 PartOfSpeech = APPR]。
我只想为句子中的每个单词获取PartOfSpeech,然后输出到一行。
我该怎么办?