使用Stanford CoreNLP标记文件时忽略XML标记

时间:2018-07-04 20:17:49

标签: xml stanford-nlp

我想标记一个包含XML标记的文本文件。但是,当我使用Stanford标记器时,所有内容都会被注释,甚至是XML标记。是否有一个标志或其他选项可以让我指定我只想对文本进行注释,并且应该忽略XML标记?这是我需要纠正的:

<h> NNP <h> O->这些标签应被忽略。

例如,TreeTagger默认情况下会忽略XML标记。

1 个答案:

答案 0 :(得分:0)

您应该改用完整管道。

然后使用这些注释器

-annotators tokenize,cleanxml,ssplit, pos

您可以在以下链接中找到所有详细信息:

https://stanfordnlp.github.io/CoreNLP/download.html

https://stanfordnlp.github.io/CoreNLP/cmdline.html

https://stanfordnlp.github.io/CoreNLP/api.html