我想标记一个包含XML标记的文本文件。但是,当我使用Stanford标记器时,所有内容都会被注释,甚至是XML标记。是否有一个标志或其他选项可以让我指定我只想对文本进行注释,并且应该忽略XML标记?这是我需要纠正的:
<h> NNP <h> O
->这些标签应被忽略。
例如,TreeTagger默认情况下会忽略XML标记。
答案 0 :(得分:0)
您应该改用完整管道。
然后使用这些注释器
-annotators tokenize,cleanxml,ssplit, pos
您可以在以下链接中找到所有详细信息:
https://stanfordnlp.github.io/CoreNLP/download.html