我正在使用Yahoo Pipes从网页中提取内容。出于某种原因,开发人员将文章内容放在<h2>
标签内,我很难从那里获取内容。
内容如下:
<div id="divid"><h2>
<p>Some content<p>
<p>Some more content</p>
</h2>
<!-- some more stuff here -->
</div>
当我使用//div[@id='divid']
时,我可以获取整个<div>
块的内容,但是当我尝试//div[@id='divid']//h2
或//div[@id='divid']//h2/text()
时,我什么也得不到。
我做错了什么?如何正确获取<h2>
标签之间的内容?
您可能需要查看实际的web page。
答案 0 :(得分:1)
也许你缺少的是勾选使用HTML5解析器选项。没有它,它就无法匹配//h2
。
该页面非常重要。文本中充满了带有内联样式的<span...>
标签。我创建了一个样本管道,以便从页面中理解:
http://pipes.yahoo.com/pipes/pipe.info?_id=cf46006f77bdac4a6e57785c78cd0b2b