如何在不同页面上找到实际需要包含的JavaScript文件?

时间:2013-12-10 12:42:08

标签: javascript include audit web-crawler

我正在寻找蜘蛛网站(或首页列表)的方法,并确定是否确实需要相关页面上包含的JS文件,或者确定需要特定JS文件的页面。

服务器端语言是PHP。页面的实际抓取不会成为问题。

我继承了一个非常大的网站。到目前为止,惯例是如果在任何子页面上需要JavaScript文件,它通常会放在每个页面的模板中。没有条件。没有缩小。没有连接。

展望未来,我们将推出require.js,但现在需要在遗留页面上完成某些工作。

  • 网络目录中的30k +文件,Google为该域编制350k +页面。

1 个答案:

答案 0 :(得分:1)

是否需要js文件取决于您在某些网页中需要的数据或效果。似乎没有通用的方法来为所有网站执行此操作。

如果您只想在通过加载js文件生成的网页上获取某些数据,例如商品页面上的价格和库存,那么您必须使用requestsurllib2检索html页面并解析页面以查看所需数据是否在静态页面上。如果没有,数据可能由js文件生成,您应该使用chrome或 firebug 中的 google developer tools 来确定需要哪个js文件。

除此之外,我不知道当你想要抓取网站时是否还需要确定是否需要js文件。

如果您不想像上面那样进行分析工作,只需使用一些无头浏览器技术来抓取网站,例如PhantomJS(推荐),qtwebkit或硒。