Question

我正在使用Scrapy库来抓取网页。

但我有一个问题。我不知道如何定位data属性。

我有href属性和<a data-item-name="detail-page-link" href="this-is-some-link">的链接，如下所示：

href

我想要的是a的价值。如果response.css('.some-class::attr(href)')有课程我可以按如下方式进行：

data-item-name

但问题是我不知道如何定位<?xml version="1.0" encoding="UTF-8"?> <row> <stuff>Her we have some text and some false markup like <this> and so on</stuff> </row>属性。

有什么建议吗？

Answer 1

我不确定，如果您可以使用css方法执行此操作，但使用xpath方法可以执行此操作：

response.xpath("//a[@data-item-name]/@href")

Answer 2

使用scrapy css选择器，您可以执行以下操作：

response.css('a[data-item-name="detail-page-link"]::attr(href)').extract()