ssplit.htmlBoundariesToDiscard和clean.xml标签都不是德语

时间:2015-08-31 13:00:27

标签: stanford-nlp

我正在使用CoreNLP的德语组件并尝试从文本中清除HTML标记。我尝试了cleanxml注释器(clean.xmltags = .*)和ssplitssplit.htmlBoundariesToDiscard = p,text,img,a)的相关选项,但没有任何效果。

这些区分大小写(我同时尝试了pP,似乎没有什么区别)?这与文本是德语有什么关系吗?

谢谢!

1 个答案:

答案 0 :(得分:0)

好的,这是一个完全改变的答案!

我正在运行Stanford CoreNLP 3.5.2并在分发文件夹中运行此命令:

java -Xmx6g -cp "*:." -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,cleanxml,ssplit,pos,lemma,ner,parse -file sample_german.html -outputFormat text

我在一些基本HTML标记之间放了一个德语句子,输出中删除了标记。此命令是否适用于您的文档?

我不确定您是如何调用管道的,但上述内容应该适用于命令行。如果您使用的是.prop文件,请确保在tokenize之后使用cleanxml作为注释器,如下例所示:

annotators = tokenize,cleanxml,ssplit,pos,lemma,ner,parse

如果它还没有工作,请告诉我!