我刚刚开始探索零碎的框架。
我一直在阅读scrapy,用于从页面内容中提取网址/图片并抓取。
我的问题是,有没有办法提取/打印网页中加载的所有网络资源,如PhantomJS does print all the network resources in a webpage如何不从页面的html内容中提取,而是直接从网络资源中提取/打印资源请求/完成自己。
由于
答案 0 :(得分:0)
Scrapy不会渲染网页。
Scrapy只是从网络服务器上获取网页的html代码。
因此,当Scrapy获取网页时,蜘蛛刚刚访问服务器一次,并且不会请求资源,例如图像和javascript文件。