使用下面的代码,我一直在尝试下载一个URL,保存到文件,然后检查该文件中是否有任何html标签(我要检查的标签位于checks.json中)。我需要从命令行运行它,为此我认为我需要javascript语言的asynch,回调功能。
此时我迷失了。我不能让它发挥作用。我的问题是,从命令行我总是得到文件不存在的错误。
我知道它需要等到下载然后再运行检查。但似乎每次运行代码时,都不会调用该函数。我不知道为什么。
所以我需要了解的是:
如何从命令行运行此命令,下载URL,将其保存到文件,使用checks.json检查并将结果打印到控制台。
谢谢。
var fs = require('fs');
var program = require('commander');
var cheerio = require('cheerio');
var rest = require('restler');
var HTMLFILE_DEFAULT = "index.html";
var CHECKSFILE_DEFAULT = "checks.json";
var URLFILE_DEFAULT = "downloaded.html";
var assertFileExists = function(infile) {
var instr = infile.toString();
if(!fs.existsSync(instr)) {
console.log("%s does not exist. Exiting.", instr);
process.exit(1); // http://nodejs.org/api/process.html#process_process_exit_code
}
return instr;
};
var cheerioHtmlFile = function(htmlfile) {
return cheerio.load(fs.readFileSync(htmlfile));
};
var loadChecks = function(checksfile) {
return JSON.parse(fs.readFileSync(checksfile));
};
var checkHtmlFile = function(htmlfile, checksfile) {
$ = cheerioHtmlFile(htmlfile);
var checks = loadChecks(checksfile).sort();
var out = {};
for(var ii in checks) {
var present = $(checks[ii]).length > 0;
out[checks[ii]] = present;
}
return out;
};
var clone = function(fn) {
// Workaround for commander.js issue.
// http://stackoverflow.com/a/6772648
return fn.bind({});
};
var downAnd2File = function() {
rest.get('http://www.wired.com/').on('complete', function(result) {
if (result instanceof Error) {
sys.puts('Error: ' + result.message);
this.retry(5000); // try again after 5 sec
} else
{
fs.writeFile(__dirname + '/downloaded.html', result, function(err) {
if (err) throw err;
console.log('Saved!');
});
}
});
downAnd2File(checkHtmlFile);
}
if(require.main == module) {
program
.option('-c, --checks <check_file>', 'Path to checks.json', clone(assertFileExists), CHECKSFILE_DEFAULT)
.option('-f, --file <html_file>', 'Path to index.html', clone(assertFileExists), HTMLFILE_DEFAULT)
.option('-u, --url <html_file>', 'Path to downloaded url', clone(assertFileExists), URLFILE_DEFAULT) ///////////////
.parse(process.argv);
var down2FileAndCheck = downAnd2File(checkHtmlFile(program.url, program.checks));
var checkJson = checkHtmlFile(program.file, program.checks);
var outJson = JSON.stringify(checkJson, null, 4);
console.log(outJson);
} else {
exports.checkHtmlFile = checkHtmlFile;
}
答案 0 :(得分:4)
您似乎不了解回调在node.js中是如何工作的。您需要在stackoverflow或其他地方进行一些阅读。
我重写了你的程序(但没有测试它),研究它并问我是否有任何问题。
// halts if the provided filename doesn't exist
function assertFileExists(filename) {
if (!fs.existsSync(filename)) {
console.log("%s does not exist. Exiting.", filename);
process.exit(1);
}
return filename;
}
// loads checks from a file
function loadChecks(checksfile) {
return JSON.parse(fs.readFileSync(checksfile)).sort();
}
// checks html
function checkHtml(html, checks) {
$ = cheerio.load(html);
var out = {};
for(var ii in checks) {
var present = $(checks[ii]).length > 0;
out[checks[ii]] = present;
}
return out;
}
// loads html from a file and checks it
// for exports only
function checkHtmlFile(filename, checks) {
return checkHtml(fs.readFileSync(filename), checks);
}
// downloads html from the internet
// callback is called with two arguments: err, html
// where err is null if there is no error
function download(url, callback) {
var resp = rest.get(url);
resp.on('complete', function(result) {
if (result instanceof Error) {
// callback(result);
sys.puts('Error: ' + result.message);
this.retry(5000); // try again after 5 sec
return;
}
callback(null, result);
});
}
if (require.main == module) {
program
.option('-c, --checks <check_file>', 'Path to checks.json', assertFileExists, CHECKSFILE_DEFAULT)
.option('-f, --file <html_file>', 'Path to index.html', assertFileExists, HTMLFILE_DEFAULT)
.option('-u, --url <url>', 'Path to downloaded url') ///////////////
.parse(process.argv);
// this function loads checks & checks html
function check(err, html) {
if (err) {
console.log('Error getting html: ' + err);
process.exit(1);
}
var checks = loadChecks(program.checks);
var checkJson = checkHtml(html, checks);
var outJson = JSON.stringify(checkJson, null, 4);
console.log(outJson);
}
if (program.url) {
// download the provided url and then check the html
download(program.url, check);
} else if (program.file) {
// load html from a file and then check it
fs.readFile(program.file, check);
}
} else {
exports.loadChecks = loadChecks; // for loading checks
exports.checkHtmlFile = checkHtmlFile; // for checking a file
}
答案 1 :(得分:1)
正如麦克已经提到的那样,你并不需要下载并保存刚刚提取的html。
这是原始代码的次要重构。想法是获取html(从url或保存的文件)。结果/数据准备就绪后,调用方法对内容进行检查。
function checkHtml(err, html){
if (err){
console.log('Error: ' + err);
process.exit(1);
}
var checkJson = checkHtmlFile(html, program.checks);
var outJson = JSON.stringify(checkJson, null, 4);
console.log(outJson);
}
if(require.main == module){
program
.option('-c, --checks <check_file>', 'Check path', clone(assertFileExists), CHECKS_DEF)
.option('-f, --file <html_file>', 'File path', clone(assertFileExists), HTML_DEF)
.option('-u, --url <url_pointer>', 'Url link that needs to be graded')
.parse(process.argv);
if (program.url){
rest.get(program.url)
.on('complete', function(result){
checkHtml((html instanceof Error), result);
});
} else {
fs.readFile(program.file, checkHtml);
}
}
希望这有帮助。
答案 2 :(得分:0)
以防万一在执行任何JS代码之前发生问题:
您可能希望将文件设为可执行文件
chmod +x <filename>
并在您的文件顶部添加此语句:
#!/usr/bin/env node
很抱歉,如果已经是这样了