使用nodejs读取多个文件的最佳方法?

时间:2014-07-15 00:12:24

标签: javascript node.js

我有一大堆文件路径。我从流式glob模块https://github.com/wearefractal/glob-stream

获取此路径列表

我正在将此流传输到另一个为每条路径创建fileReadStreams的流并快速达到某些限制。我得到了:

warning: possible EventEmitter memory leak detected. 11 listeners added. Use emitter.setMaxListeners() to increase limit

以及Error: EMFILE, open

我已尝试碰撞maxListeners,但我有~9000个文件会创建流,我担心这会占用内存,这个数字不是常数而且会增长。我可以安全地删除这里的限制吗?

我应该同步这样做吗?或者我应该迭代路径并按顺序读取文件?那还不会使用for循环一次执行所有读操作吗?

1 个答案:

答案 0 :(得分:2)

最大侦听器是purely a warningsetMaxListeners仅控制何时将该消息打印到控制台,而不控制其他内容。您可以将其禁用或忽略它。

EMFILE是您的操作系统,强制限制您的进程一次可以拥有的打开文件(文件描述符)的数量。你可以通过increasing the limit with ulimit来避免这种情况。

因为运行数千个并发文件系统操作使磁盘饱和不会带来任何额外的性能 - 事实上,它会受到伤害,特别是在传统的非SSD驱动器上 - 最好只运行受控数量立即行动。

我可能使用async queue,它允许您在一个循环中将每个文件的名称推送到队列,然后一次只运行 n 操作。操作完成后,队列中的下一个操作开始。

例如:

var q = async.queue(function (file, cb) {
    var stream = fs.createReadStream(file.path);
    // ...
    stream.on('end', function() {
        // finish up, then
        cb();
    });
}, 2);

globStream.on('data', function(file) {
    q.push(file);
});

globStream.on('end', function() {
    // We don't want to add the `drain` handler until *after* the globstream
    // finishes.  Otherwise, we could end up in a situation where the globber
    // is still running but all pending file read operations have finished.
    q.drain = function() {
        // All done with everything.
    };

    // ...and if the queue is empty when the globber finishes, make sure the done
    // callback gets called.
    if (q.idle()) q.drain();
});

您可能需要进行一些实验,以便为您的应用找到合适的并发数。