我正在寻找蜘蛛网站(或首页列表)的方法,并确定是否确实需要相关页面上包含的JS文件,或者确定需要特定JS文件的页面。
服务器端语言是PHP。页面的实际抓取不会成为问题。
我继承了一个非常大的网站。到目前为止,惯例是如果在任何子页面上需要JavaScript文件,它通常会放在每个页面的模板中。没有条件。没有缩小。没有连接。
展望未来,我们将推出require.js,但现在需要在遗留页面上完成某些工作。
答案 0 :(得分:1)
是否需要js文件取决于您在某些网页中需要的数据或效果。似乎没有通用的方法来为所有网站执行此操作。
如果您只想在通过加载js文件生成的网页上获取某些数据,例如商品页面上的价格和库存,那么您必须使用requests或urllib2检索html页面并解析页面以查看所需数据是否在静态页面上。如果没有,数据可能由js文件生成,您应该使用chrome或 firebug 中的 google developer tools 来确定需要哪个js文件。
除此之外,我不知道当你想要抓取网站时是否还需要确定是否需要js文件。
如果您不想像上面那样进行分析工作,只需使用一些无头浏览器技术来抓取网站,例如PhantomJS(推荐),qtwebkit或硒。