Scrapy不遵循图片链接

时间:2018-12-04 11:13:06

标签: python scrapy

Scrapy中是否有一种方法可以不遵循指向图像的<a>标签?

例如:

<a href="http://jamsphere.com/wp-content/uploads/2015/11/Franki-Dennull-PROFILE.jpg">

此刻我的代码:

for a in set(response.xpath('//a/@href')):
    yield scrapy.Request(url, callback=self.parse) 

很明显,我可以添加一个硬编码的检查,但是想知道是否有内置选项吗?

1 个答案:

答案 0 :(得分:2)

使用LinkExtractor,默认情况下,它会过滤掉常见的图片/视频/音频/文件扩展名。

查看here来查看忽略的扩展名。