应用错误收集

我想使用Stanford CoreNLP来分析XML文件的文本内容。

以下是我正在分析的XML元素的一个示例：

<cmd>In the new plug-in directory, add a <filepath>cfg/catalog.xml</filepath> file that specifies the custom XSLT style sheets.</cmd>

我想检查的一件事是<cmd>元素是否包含多个句子。现在，如果我提取上面<cmd>元素的文本内容，结果就是：

在新的插件目录中，添加指定自定义XSLT样式表的cfg / catalog.xml文件。

如果我将这段文字交给Stanford CoreNLP，它认为文本有两个句子，因为cfg/catalog.xml中的点，即使它只是一个句子。

在这个特定的例子中，我可能只是在分析文本时省略了<filepath>元素的内容，并且它运行得很好，但情况并非总是如此。

有关如何在一般级别上最好地解决此问题的任何建议？我想我正在寻找一种方法来忽略<filepath>的内容和类似元素用于某些目的，或者以某种方式强制它们被识别为命名实体，如果这有意义的话。