Scrapy:检查网页中的网络资源

时间:2016-02-04 09:23:14

标签: python scrapy scrapy-spider

我刚刚开始探索零碎的框架。

我一直在阅读scrapy,用于从页面内容中提取网址/图片并抓取。

我的问题是,有没有办法提取/打印网页中加载的所有网络资源,如PhantomJS does print all the network resources in a webpage如何不从页面的html内容中提取,而是直接从网络资源中提取/打印资源请求/完成自己。

由于

1 个答案:

答案 0 :(得分:0)

Scrapy不会渲染网页。

Scrapy只是从网络服务器上获取网页的html代码。

因此,当Scrapy获取网页时,蜘蛛刚刚访问服务器一次,并且不会请求资源,例如图像和javascript文件。