nodejs同步逐行读取大文件?

时间:2011-09-25 11:11:21

标签: javascript node.js filesystems mojibake

我有一个大文件(utf8)。我知道fs.createReadStream可以创建流来读取大文件,但不能同步。所以我尝试使用fs.readSync,但阅读的文字像"迈�"一样被破坏。

var fs = require('fs');
var util = require('util');
var textPath = __dirname + '/people-daily.txt';   
var fd = fs.openSync(textPath, "r");
var text = fs.readSync(fd, 4, 0, "utf8");
console.log(util.inspect(text, true, null));

5 个答案:

答案 0 :(得分:11)

对于大文件,readFileSync可能不方便,因为它会将整个文件加载到内存中。一种不同的同步方法是迭代地调用readSync,一次读取少量数据,并在它们到来时处理这些行。以下代码实现了这种方法,并从文件'test.txt'一次同步处理一行:

var fs = require('fs');
var filename = 'test.txt'

var fd = fs.openSync(filename, 'r');
var bufferSize = 1024;
var buffer = new Buffer(bufferSize);

var leftOver = '';
var read, line, idxStart, idx;
while ((read = fs.readSync(fd, buffer, 0, bufferSize, null)) !== 0) {
  leftOver += buffer.toString('utf8', 0, read);
  idxStart = 0
  while ((idx = leftOver.indexOf("\n", idxStart)) !== -1) {
    line = leftOver.substring(idxStart, idx);
    console.log("one line read: " + line);
    idxStart = idx + 1;
  }
  leftOver = leftOver.substring(idxStart);
}

答案 1 :(得分:7)

使用https://github.com/nacholibre/node-readlines

  private static SessionFactory sessionFactory = buildSessionFactory();

答案 2 :(得分:4)

使用readFileSync

  

fs.readFileSync(filename,[encoding])同步版本   fs.readFile。返回文件名的内容。

     

如果指定了encoding,则此函数返回一个字符串。   否则它返回一个缓冲区。

另一方面,由于您使用的是节点,我建议使用异步函数。

答案 3 :(得分:2)

我构建了一个更简单的版本JB Kohn的答案,它在缓冲区上使用split()。它适用于我尝试的较大文件。

/*
 * Synchronously call fn(text, lineNum) on each line read from file descriptor fd.
 */
function forEachLine (fd, fn) {
    var bufSize = 64 * 1024;
    var buf = new Buffer(bufSize);
    var leftOver = '';
    var lineNum = 0;
    var lines, n;

    while ((n = fs.readSync(fd, buf, 0, bufSize, null)) !== 0) {
        lines = buf.toString('utf8', 0 , n).split('\n');
        lines[0] = leftOver+lines[0];       // add leftover string from previous read
        while (lines.length > 1) {          // process all but the last line
            fn(lines.shift(), lineNum);
            lineNum++;
        }
        leftOver = lines.shift();           // save last line fragment (may be '')
    }
    if (leftOver) {                         // process any remaining line
        fn(leftOver, lineNum);
    }
}

答案 4 :(得分:1)

两个潜在的问题,

  1. 开始时没有跳过的3字节BOM
  2. 前4字节不能很好地格式化为UTF8的字符(utf8不是固定长度)