我正在使用CoreNLP的德语组件并尝试从文本中清除HTML标记。我尝试了cleanxml
注释器(clean.xmltags = .*
)和ssplit
(ssplit.htmlBoundariesToDiscard = p,text,img,a
)的相关选项,但没有任何效果。
这些区分大小写(我同时尝试了p
和P
,似乎没有什么区别)?这与文本是德语有什么关系吗?
谢谢!
答案 0 :(得分:0)
好的,这是一个完全改变的答案!
我正在运行Stanford CoreNLP 3.5.2并在分发文件夹中运行此命令:
java -Xmx6g -cp "*:." -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,cleanxml,ssplit,pos,lemma,ner,parse -file sample_german.html -outputFormat text
我在一些基本HTML标记之间放了一个德语句子,输出中删除了标记。此命令是否适用于您的文档?
我不确定您是如何调用管道的,但上述内容应该适用于命令行。如果您使用的是.prop文件,请确保在tokenize之后使用cleanxml作为注释器,如下例所示:
annotators = tokenize,cleanxml,ssplit,pos,lemma,ner,parse
如果它还没有工作,请告诉我!