如何检索所有图像,js,css网址

时间:2015-04-24 00:20:29

标签: python http web web-crawler scrapy

我正在查看我能找到的所有scrapy示例和教程,但我无法找到一个示例,我可以从服务器发送图像,css和js文件的所有URL。

有没有办法用scrapy做到这一点?如果没有scrapy,那么有没有办法用别的东西做呢?

我基本上想通过我的网站获取所有网址/资源并将其输出到日志文件中。

1 个答案:

答案 0 :(得分:2)

您可以使用link extractor(更具体地说,我发现LxmlParserLinkExtractor更适合此类事情),自定义元素和属性,如下所示:

from scrapy.contrib.linkextractors.lxmlhtml import LxmlParserLinkExtractor

tags = ['img', 'embed', 'link', 'script']
attrs = ['src', 'href']
extractor = LxmlParserLinkExtractor(lambda x: x in tags, lambda x: x in attrs)
resource_urls = [l.url for l in extractor.extract_links(response)]