Question

我正在使用CoreNLP的德语组件并尝试从文本中清除HTML标记。我尝试了cleanxml注释器（clean.xmltags = .*）和ssplit（ssplit.htmlBoundariesToDiscard = p,text,img,a）的相关选项，但没有任何效果。

这些区分大小写（我同时尝试了p和P，似乎没有什么区别）？这与文本是德语有什么关系吗？

谢谢！

Answer 1

好的，这是一个完全改变的答案！

我正在运行Stanford CoreNLP 3.5.2并在分发文件夹中运行此命令：

java -Xmx6g -cp "*:." -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,cleanxml,ssplit,pos,lemma,ner,parse -file sample_german.html -outputFormat text

我在一些基本HTML标记之间放了一个德语句子，输出中删除了标记。此命令是否适用于您的文档？

我不确定您是如何调用管道的，但上述内容应该适用于命令行。如果您使用的是.prop文件，请确保在tokenize之后使用cleanxml作为注释器，如下例所示：

annotators = tokenize,cleanxml,ssplit,pos,lemma,ner,parse

如果它还没有工作，请告诉我！

ssplit.htmlBoundariesToDiscard和clean.xml标签都不是德语

1 个答案: