我有下一个结构的html(见下文),需要在< p >< / p >之间获取所有文本。和< h3 >< / h3 >或< h2 >< / h2 >它们在html结构中处于同一级别。
以下是一个例子:
<p>..</p>
<p>..</p>
..
<p>"<em>Ce que nous voulons souligner, c'est que la Tunisie est sur la bonne voie</em>", a déclaré Mona Richmaoui, membre de la mission. </p>
<h3 class="intertitre title_delta">SANCTIONNER LES VIOLATIONS DES DROITS DE L'HOMME</h3>
<p>Le ministère tunisien de l'Intérieur a engagé lundi une procédure visant à la dissolution... </p>
..
<p>..</p>
<div>...some text over there ....</div>
..
<h2>some text</h2>
..
<p>..</p>
输出应为:
"Ce que nous voulons souligner, c'est que la Tunisie est sur la bonne voie", a déclaré Mona Richmaoui, membre de la mission.
SANCTIONNER LES VIOLATIONS DES DROITS DE L'HOMME
Le ministère tunisien de l'Intérieur a engagé lundi une procédure visant à la dissolution...
..
some text
我正在使用下一个XPath,但忽略了&lt; h3 &gt;&lt; / h3 &gt;之间的文字标记:
//p//text()[normalize-space()]
答案 0 :(得分:1)
如果您尝试获取 all 元素的文本:
//*//text()
如果要指定元素:
//p//text()|//h3//text()|div//text()