标签: performance http curl seo wget
我的目标是抓取指定的网站,并记录网站上每个网页的总有效负载的统计信息。有效载荷是指一旦下载原始文档,css,js,图像等的字节数。我试图整理一个图表,显示我网站上“最重”的页面,以便可以先处理这些页面。
有没有人知道这样做的任何工具或技术?我倾向于与PHP或Python中的Web应用程序很好地集成。
答案 0 :(得分:0)
我见过关于plenty of questions on SO的Mechanize,他们通常看起来只需要一点点代码就可以完成很多工作。