我想使用Stanford CoreNLP来分析XML文件的文本内容。
以下是我正在分析的XML元素的一个示例:
<cmd>In the new plug-in directory, add a <filepath>cfg/catalog.xml</filepath> file that specifies the custom XSLT style sheets.</cmd>
我想检查的一件事是<cmd>
元素是否包含多个句子。现在,如果我提取上面<cmd>
元素的文本内容,结果就是:
在新的插件目录中,添加指定自定义XSLT样式表的cfg / catalog.xml文件。
如果我将这段文字交给Stanford CoreNLP,它认为文本有两个句子,因为cfg/catalog.xml
中的点,即使它只是一个句子。
在这个特定的例子中,我可能只是在分析文本时省略了<filepath>
元素的内容,并且它运行得很好,但情况并非总是如此。
有关如何在一般级别上最好地解决此问题的任何建议?我想我正在寻找一种方法来忽略<filepath>
的内容和类似元素用于某些目的,或者以某种方式强制它们被识别为命名实体,如果这有意义的话。
答案 0 :(得分:1)
您可以构建一个暂时替换有问题的标签/文件名的注释器,然后在句子拆分后恢复它们。
如果我有机会,我会写一些示例代码。