Question

我想解析出现在XML文件中但XML标记之外的文本。在随附的示例中，我只想解析p标记之外的文本，例如"FIELD OF THE TECHNOLOGY"和"DETAILED DESCRIPTION OF THE TECHNOLOGY"。

我的XML文件的示例是：

<description>                        
FIELD OF THE TECHNOLOGY
<p>The present technology is directed ....</p>
<p>The present invention is.....</p>
<p>One promising approach has ...,</p>


DETAILED DESCRIPTION OF THE TECHNOLOGY
<p>The present tech provides, ....</p>
<p>A report by Kearse et al.,...</p>
</description>

Answer 1

术语

在您的示例中，description 元素具有混合内容。您正在寻找提取description元素的 text node 子元素。找出正确的术语是寻找答案（并缩小过于宽泛的问题）的第一步。

解析XML

...一般使用Java

...具有混合内容：

...选择解析技术：

您可以在choosing a parsing technology上找到许多教程，但是XPath特别适合选择XML文档的一部分，并且有适用于大多数语言的库。

...通过XPath，例如：

此XPath，

//description/text()

将从description元素中选择所有直接文本节点子级。根据要求，它将不包含p元素或其后代。

如何解析XML标签之外的文本？

1 个答案:

术语

解析XML