我想下载整个网页以及使用PhantomJS在任何浏览器中呈现网页所需的内容(包括css,javascripts,图像,外部资源)。我不想执行脚本,只是解析css和javascripts以获取更多内容链接并下载它们。
我尝试使用像wget这样的工具(确切地说我需要但是非常慢,因为它使用单个tcp连接到web服务器)和httrack(下载整个网站,在我的情况下我想只下载所需的内容通过递归解析文件中的链接来呈现页面。我目前正在尝试使用phantomjs,但找不到正确的方法来使用它。
非常感谢任何帮助/指针。
答案 0 :(得分:0)
尝试使用此代码:
var page = require('webpage').create();
var url = "your url goes here";
var fs = require('fs');
var path = 'index.html';//you might want to change format whether .json .txt etc.
page.open(url, function (status) {
if(status !== 'success')
console.log('Connection failed, page was not loaded!');
else
var content = page.content;
fs.write(path, content ,'w')
phantom.exit();
});
这必须为您提供网页的全部内容。如果您需要进一步的帮助,请告诉我们!