应用错误收集

如何在不同页面上找到实际需要包含的JavaScript文件？

时间：2013-12-10 12:42:08

标签： javascript include audit web-crawler

我正在寻找蜘蛛网站（或首页列表）的方法，并确定是否确实需要相关页面上包含的JS文件，或者确定需要特定JS文件的页面。

服务器端语言是PHP。页面的实际抓取不会成为问题。

我继承了一个非常大的网站。到目前为止，惯例是如果在任何子页面上需要JavaScript文件，它通常会放在每个页面的模板中。没有条件。没有缩小。没有连接。

展望未来，我们将推出require.js，但现在需要在遗留页面上完成某些工作。

网络目录中的30k +文件，Google为该域编制350k +页面。

1 个答案:

答案 0 :(得分：1)

是否需要js文件取决于您在某些网页中需要的数据或效果。似乎没有通用的方法来为所有网站执行此操作。

如果您只想在通过加载js文件生成的网页上获取某些数据，例如商品页面上的价格和库存，那么您必须使用requests或urllib2检索html页面并解析页面以查看所需数据是否在静态页面上。如果没有，数据可能由js文件生成，您应该使用chrome或 firebug 中的 google developer tools 来确定需要哪个js文件。

除此之外，我不知道当你想要抓取网站时是否还需要确定是否需要js文件。

如果您不想像上面那样进行分析工作，只需使用一些无头浏览器技术来抓取网站，例如PhantomJS（推荐），qtwebkit或硒。