Question

我正在使用Yahoo Pipes从网页中提取内容。出于某种原因，开发人员将文章内容放在<h2>标签内，我很难从那里获取内容。

内容如下：

<div id="divid"><h2>
<p>Some content<p>
<p>Some more content</p>
</h2>
<!-- some more stuff here -->
</div>

当我使用//div[@id='divid']时，我可以获取整个<div>块的内容，但是当我尝试//div[@id='divid']//h2或//div[@id='divid']//h2/text()时，我什么也得不到。

我做错了什么？如何正确获取<h2>标签之间的内容？

您可能需要查看实际的web page。

Answer 1

也许你缺少的是勾选使用HTML5解析器选项。没有它，它就无法匹配//h2。

该页面非常重要。文本中充满了带有内联样式的<span...>标签。我创建了一个样本管道，以便从页面中理解：