我正在使用Scrapy库来抓取网页。
但我有一个问题。我不知道如何定位data
属性。
我有href
属性和<a data-item-name="detail-page-link" href="this-is-some-link">
的链接,如下所示:
href
我想要的是a
的价值。如果response.css('.some-class::attr(href)')
有课程我可以按如下方式进行:
data-item-name
但问题是我不知道如何定位<?xml version="1.0" encoding="UTF-8"?>
<row>
<stuff>Her we have some text and some false markup like <this> and so on</stuff>
</row>
属性。
有什么建议吗?
答案 0 :(得分:2)
我不确定,如果您可以使用css
方法执行此操作,但使用xpath
方法可以执行此操作:
response.xpath("//a[@data-item-name]/@href")
答案 1 :(得分:1)
使用scrapy css
选择器,您可以执行以下操作:
response.css('a[data-item-name="detail-page-link"]::attr(href)').extract()