如何使用XPath获取标头中的内容

时间:2013-09-13 13:17:25

标签: html xpath yahoo-pipes

我正在使用Yahoo Pipes从网页中提取内容。出于某种原因,开发人员将文章内容放在<h2>标签内,我很难从那里获取内容。

内容如下:

<div id="divid"><h2>
<p>Some content<p>
<p>Some more content</p>
</h2>
<!-- some more stuff here -->
</div>

当我使用//div[@id='divid']时,我可以获取整个<div>块的内容,但是当我尝试//div[@id='divid']//h2//div[@id='divid']//h2/text()时,我什么也得不到。

我做错了什么?如何正确获取<h2>标签之间的内容?

您可能需要查看实际的web page

1 个答案:

答案 0 :(得分:1)

也许你缺少的是勾选使用HTML5解析器选项。没有它,它就无法匹配//h2

该页面非常重要。文本中充满了带有内联样式的<span...>标签。我创建了一个样本管道,以便从页面中理解:

http://pipes.yahoo.com/pipes/pipe.info?_id=cf46006f77bdac4a6e57785c78cd0b2b