XPath在同一级别的不同标记之间获取文本

时间:2015-12-01 16:50:23

标签: r xpath

我有下一个结构的html(见下文),需要在< p >< / p >之间获取所有文本。和< h3 >< / h3 >或< h2 >< / h2 >它们在html结构中处于同一级别。

以下是一个例子:

<p>..</p>
<p>..</p>
..
<p>"<em>Ce que nous voulons souligner, c'est que la Tunisie est sur la bonne voie</em>", a déclaré Mona Richmaoui, membre de la mission.&nbsp;</p>

<h3 class="intertitre title_delta">SANCTIONNER LES VIOLATIONS DES DROITS DE L'HOMME</h3>

<p>Le ministère tunisien de l'Intérieur a engagé lundi une procédure visant à la dissolution...&nbsp;</p>
..
<p>..</p>
<div>...some text over there ....</div>
..
<h2>some text</h2>
..
<p>..</p>

输出应为:

"Ce que nous voulons souligner, c'est que la Tunisie est sur la bonne voie", a déclaré Mona Richmaoui, membre de la mission. 
SANCTIONNER LES VIOLATIONS DES DROITS DE L'HOMME
Le ministère tunisien de l'Intérieur a engagé lundi une procédure visant à la dissolution...
..
some text 

我正在使用下一个XPath,但忽略了&lt; h3 &gt;&lt; / h3 &gt;之间的文字标记:

//p//text()[normalize-space()]

1 个答案:

答案 0 :(得分:1)

如果您尝试获取 all 元素的文本:

//*//text()

如果要指定元素:

//p//text()|//h3//text()|div//text()