使用Stanford CoreNLP解析文本时忽略XML元素内的文本

时间:2015-11-17 14:50:27

标签: xml nlp stanford-nlp

我想使用Stanford CoreNLP来分析XML文件的文本内容。

以下是我正在分析的XML元素的一个示例:

<cmd>In the new plug-in directory, add a <filepath>cfg/catalog.xml</filepath> file that specifies the custom XSLT style sheets.</cmd>

我想检查的一件事是<cmd>元素是否包含多个句子。现在,如果我提取上面<cmd>元素的文本内容,结果就是:

  

在新的插件目录中,添加指定自定义XSLT样式表的cfg / catalog.xml文件。

如果我将这段文字交给Stanford CoreNLP,它认为文本有两个句子,因为cfg/catalog.xml中的点,即使它只是一个句子。

在这个特定的例子中,我可能只是在分析文本时省略了<filepath>元素的内容,并且它运行得很好,但情况并非总是如此。

有关如何在一般级别上最好地解决此问题的任何建议?我想我正在寻找一种方法来忽略<filepath>的内容和类似元素用于某些目的,或者以某种方式强制它们被识别为命名实体,如果这有意义的话。

1 个答案:

答案 0 :(得分:1)

您可以构建一个暂时替换有问题的标签/文件名的注释器,然后在句子拆分后恢复它们。

如果我有机会,我会写一些示例代码。