如何解析XML标签之外的文本?

时间:2019-07-29 11:58:24

标签: java xml xml-parsing

我想解析出现在XML文件中但XML标记之外的文本。在随附的示例中,我只想解析p标记之外的文本,例如"FIELD OF THE TECHNOLOGY""DETAILED DESCRIPTION OF THE TECHNOLOGY"

我的XML文件的示例是:

<description>                        
FIELD OF THE TECHNOLOGY
<p>The present technology is directed ....</p>
<p>The present invention is.....</p>
<p>One promising approach has ...,</p>


DETAILED DESCRIPTION OF THE TECHNOLOGY
<p>The present tech provides, ....</p>
<p>A report by Kearse et al.,...</p>
</description>

1 个答案:

答案 0 :(得分:0)

术语

在您的示例中,description 元素具有混合内容。您正在寻找提取description元素的 text node 子元素。找出正确的术语是寻找答案(并缩小过于宽泛的问题)的第一步。

解析XML

...一般使用Java

...具有混合内容:

...选择解析技术:

您可以在choosing a parsing technology上找到许多教程,但是XPath特别适合选择XML文档的一部分,并且有适用于大多数语言的库。

...通过XPath,例如:

此XPath,

//description/text()

将从description元素中选择所有直接文本节点子级。根据要求,它将不包含p元素或其后代。