从不同的Xpath选择器获取链接

时间:2016-03-14 14:02:53

标签: scrapy

Html代码仅适用于一个样本&gt;&gt; <a id="ctl00_cphContent_ctlRealtyListNew1_rptRealtyList_lnkOverlay_4" title="abc" class="overlay-link" href="/ab/abc/details?sParam=aDrxJwPY%2ed8m4SYfxXoC8w==&amp;new=1"></a>

和Xpaths样本&gt;&gt;

//*[@id="ctl00_cphContent_ctlRealtyListNew1_rptRealtyList_lnkOverlay_1"]
//*[@id="ctl00_cphContent_ctlRealtyListNew1_rptRealtyList_lnkOverlay_4"]

我需要选择页面上的多个链接。但我无法弄清楚我该怎么做?。

1 个答案:

答案 0 :(得分:1)

我假设您要忽略lnkOverlay之后的数字,在这种情况下,您可以使用xpath`contains()'函数而不是显式匹配字符串。此表达式匹配字符串的主体,并忽略末尾的数字。

'//*[contains(@id,"ctl00_cphContent_ctlRealtyListNew1_rptRealtyList_lnkOverlay")]'

根据页面中的其他ID,您可以进一步减少引用的字符串。请参阅此处的xpath文档http://www.w3schools.com/xsl/xsl_functions.asp