我想解析出现在XML文件中但XML标记之外的文本。在随附的示例中,我只想解析p
标记之外的文本,例如"FIELD OF THE TECHNOLOGY"
和"DETAILED DESCRIPTION OF THE TECHNOLOGY"
。
我的XML文件的示例是:
<description>
FIELD OF THE TECHNOLOGY
<p>The present technology is directed ....</p>
<p>The present invention is.....</p>
<p>One promising approach has ...,</p>
DETAILED DESCRIPTION OF THE TECHNOLOGY
<p>The present tech provides, ....</p>
<p>A report by Kearse et al.,...</p>
</description>
答案 0 :(得分:0)
在您的示例中,description
元素具有混合内容。您正在寻找提取description
元素的 text node 子元素。找出正确的术语是寻找答案(并缩小过于宽泛的问题)的第一步。
...一般使用Java
...具有混合内容:
...选择解析技术:
您可以在choosing a parsing technology上找到许多教程,但是XPath特别适合选择XML文档的一部分,并且有适用于大多数语言的库。
...通过XPath,例如:
此XPath,
//description/text()
将从description
元素中选择所有直接文本节点子级。根据要求,它将不包含p
元素或其后代。