如何通过scrapy获取'img'src属性?

时间:2013-04-21 03:36:22

标签: scrapy

我想使用scrapy来获取img的链接,所以我在scrapy的爬虫中编写下面的程序:

hxs.select('//dl[@class="clearfix"]//img/@src/text()').extract()

然而,它无论如何都不起作用。有什么问题吗?

2 个答案:

答案 0 :(得分:7)

text()是元素的文本。只需使用@src

hxs.select('//dl[@class="clearfix"]//img/@src').extract()

答案 1 :(得分:2)

如果您使用CSS选择器而不是XPath,则语法为::attr(src)

response.css('.product-list img::attr(src)').extract() # extract_first() to get only one