node.js中有很多并行的http请求

时间:2013-06-28 19:39:23

标签: javascript node.js http httprequest

我已经创建了一个node.js脚本,它扫描网络中的可用HTTP页面,因此我想要并行运行很多连接,但似乎有些请求等待之前完成。< / p>

以下是代码片段:

    var reply = { };
    reply.started = new Date().getTime();
    var req = http.request(options, function(res) {
        reply.status = res.statusCode;
        reply.rawHeaders = res.headers;
        reply.headers = JSON.stringify(res.headers);
        reply.body = '';
        res.setEncoding('utf8');
        res.on('data', function (chunk) {
            reply.body += chunk;
        });
        res.on('end', function () {
            reply.finished = new Date().getTime();
            reply.time = reply.finished - reply.started;
            callback(reply);
        });
    });
    req.on('error', function(e) {
        if(e.message == 'socket hang up') {
            return;
        }
        errCallback(e.message);
    });
    req.end();

此代码每秒仅执行10-20个请求,但我需要500-1k的请求性能。每个排队的请求都发送到不同的HTTP服务器。

我曾尝试做过类似的事情,但没有帮助:

    http.globalAgent.maxSockets = 500;

3 个答案:

答案 0 :(得分:3)

我为我找到了解决方案,它不是很好,但有效:

childProcess = require('child_process')

我正在使用curl:

childProcess.exec('curl --max-time 20 --connect-timeout 10 -iSs "' + options.url + '"', function (error, stdout, stderr) { }

这允许我同时运行800-1000个卷曲过程。当然,这个解决方案有周末,比如需要大量的打开文件描述符,但是有效。

我尝试过node-curl绑定,但这也非常慢。

答案 1 :(得分:2)

您的代码必须继续进行其他操作。 Node可以轻松处理每秒1k +的请求。

我使用以下简单代码进行了测试:

var http = require('http');

var results = [];
var j=0;

// Make 1000 parallel requests:
for (i=0;i<1000;i++) {
    http.request({
        host:'127.0.0.1',
        path:'/'
    },function(res){
        results.push(res.statusCode);
        j++;

        if (j==i) { // last request
            console.log(JSON.stringify(results));
        }
    }).end();
}

要纯粹测试哪个节点能够而不是我的家庭宽带连接,代码从本地Nginx服务器请求。我也避免使用console.log,直到所有请求都返回,因为它是作为同步函数实现的(以避免在程序崩溃时丢失调试消息)。

使用time运行代码我得到以下结果:

real    0m1.093s
user    0m0.595s
sys     0m0.154s

1000个请求的1.093秒,这使得它非常接近每秒1k个请求。

如果您尝试发出大量请求(例如10000或更多),上面的简单代码将生成操作系统错误,因为node会很乐意尝试在for循环中打开所有这些套接字(请记住:请求不要这样做)开始直到for循环结束,它们只被创建)。您提到您的解决方案也会遇到相同的错误。为避免这种情况,您应该限制并行请求的数量。

限制并行请求数的最简单方法是使用async.js库中的Limit函数之一:

var http = require('http');
var async = require('async');

var requests = [];

// Build a large list of requests:
for (i=0;i<10000;i++) {
    requests.push(function(callback){
        http.request({
            host:'127.0.0.1',
            path:'/'
        },function(res){
            callback(null,res.statusCode);
        }).end()
    });
}

// Make the requests, 100 at a time
async.parallelLimit(requests, 100,function(err, results){
    console.log(JSON.stringify(results));
});

在我的机器上运行time我得到:

real    0m8.882s
user    0m4.036s
sys     0m1.569s

这样,10k请求在大约9秒内或大约1.1k / s。

查看async.js中提供的功能。

答案 2 :(得分:0)

使用异步库:https://caolan.github.io/async/docs.html#parallel

有很多功能可以运行,只需要你想要的。 异步是你的朋友:)