什么是div类名称的链接提取的有效Xpath?

时间:2016-06-13 21:35:06

标签: xpath web-scraping

div类名称链接提取的有效Xpath是什么?

这是html代码:

<div class="poster">
<a href="/title/tt2091935/mediaviewer/rm4278707200?ref_=tt_ov_i"> <img alt="Mr. Right Poster" title="Mr. Right Poster" src="http://ia.media-imdb.com/images/M/MV5BOTcxNjUyOTMwOV5BMl5BanBnXkFtZTgwMzUxMDk4NzE@._V1_UX182_CR0,0,182,268_AL_.jpg" itemprop="image">
</a>    </div>

我想知道确切的Xpath,好像我找到了href链接。 我尝试使用// a / @ href [@ class ='poster'],但它不起作用

1 个答案:

答案 0 :(得分:1)

<div>包含<a>,因此您可以使用它来导航:

//div[@class='poster']/a/@href

请注意,"poster"上的<div>类已在<a>上定义,因此您需要应用谓词。

  • //div返回所有<div>元素
  • [@class='poster']是一个按类
  • 过滤的谓词
  • /a会返回<a>个孩子的所有<div>元素
  • /@href为我们提供了我们想要的属性

根据您使用的系统,您可能需要将整个表达式包装在text()中,以便恢复属性数据而不是DOM节点。