Question

我有下一个结构的html（见下文），需要在＆lt; p ＆gt;＆lt; / p ＆gt;之间获取所有文本。和＆lt; h3 ＆gt;＆lt; / h3 ＆gt;或＆lt; h2 ＆gt;＆lt; / h2 ＆gt;它们在html结构中处于同一级别。

以下是一个例子：

<p>..</p>
<p>..</p>
..
<p>"<em>Ce que nous voulons souligner, c'est que la Tunisie est sur la bonne voie</em>", a déclaré Mona Richmaoui, membre de la mission.&nbsp;</p>

<h3 class="intertitre title_delta">SANCTIONNER LES VIOLATIONS DES DROITS DE L'HOMME</h3>

<p>Le ministère tunisien de l'Intérieur a engagé lundi une procédure visant à la dissolution...&nbsp;</p>
..
<p>..</p>
<div>...some text over there ....</div>
..
<h2>some text</h2>
..
<p>..</p>

输出应为：

"Ce que nous voulons souligner, c'est que la Tunisie est sur la bonne voie", a déclaré Mona Richmaoui, membre de la mission. 
SANCTIONNER LES VIOLATIONS DES DROITS DE L'HOMME
Le ministère tunisien de l'Intérieur a engagé lundi une procédure visant à la dissolution...
..
some text

我正在使用下一个XPath，但忽略了＆lt; h3 ＆gt;＆lt; / h3 ＆gt;之间的文字标记：

//p//text()[normalize-space()]

Answer 1

如果您尝试获取 all 元素的文本：

//*//text()

如果要指定元素：

//p//text()|//h3//text()|div//text()

XPath在同一级别的不同标记之间获取文本

1 个答案: