如何使用Scrapy定位数据属性

时间:2018-06-07 07:02:40

标签: python scrapy

我正在使用Scrapy库来抓取网页。

但我有一个问题。我不知道如何定位data属性。

我有href属性和<a data-item-name="detail-page-link" href="this-is-some-link"> 的链接,如下所示:

href

我想要的是a的价值。如果response.css('.some-class::attr(href)') 有课程我可以按如下方式进行:

data-item-name

但问题是我不知道如何定位<?xml version="1.0" encoding="UTF-8"?> <row> <stuff>Her we have some text and some false markup like <this> and so on</stuff> </row> 属性。

有什么建议吗?

2 个答案:

答案 0 :(得分:2)

我不确定,如果您可以使用css方法执行此操作,但使用xpath方法可以执行此操作:

response.xpath("//a[@data-item-name]/@href")

答案 1 :(得分:1)

使用scrapy css选择器,您可以执行以下操作:

response.css('a[data-item-name="detail-page-link"]::attr(href)').extract()