我有一个大文件(utf8)。我知道fs.createReadStream
可以创建流来读取大文件,但不能同步。所以我尝试使用fs.readSync
,但阅读的文字像"迈�"
一样被破坏。
var fs = require('fs');
var util = require('util');
var textPath = __dirname + '/people-daily.txt';
var fd = fs.openSync(textPath, "r");
var text = fs.readSync(fd, 4, 0, "utf8");
console.log(util.inspect(text, true, null));
答案 0 :(得分:11)
对于大文件,readFileSync
可能不方便,因为它会将整个文件加载到内存中。一种不同的同步方法是迭代地调用readSync
,一次读取少量数据,并在它们到来时处理这些行。以下代码实现了这种方法,并从文件'test.txt'一次同步处理一行:
var fs = require('fs');
var filename = 'test.txt'
var fd = fs.openSync(filename, 'r');
var bufferSize = 1024;
var buffer = new Buffer(bufferSize);
var leftOver = '';
var read, line, idxStart, idx;
while ((read = fs.readSync(fd, buffer, 0, bufferSize, null)) !== 0) {
leftOver += buffer.toString('utf8', 0, read);
idxStart = 0
while ((idx = leftOver.indexOf("\n", idxStart)) !== -1) {
line = leftOver.substring(idxStart, idx);
console.log("one line read: " + line);
idxStart = idx + 1;
}
leftOver = leftOver.substring(idxStart);
}
答案 1 :(得分:7)
使用https://github.com/nacholibre/node-readlines
private static SessionFactory sessionFactory = buildSessionFactory();
答案 2 :(得分:4)
使用readFileSync:
fs.readFileSync(filename,[encoding])同步版本 fs.readFile。返回文件名的内容。
如果指定了encoding,则此函数返回一个字符串。 否则它返回一个缓冲区。
另一方面,由于您使用的是节点,我建议使用异步函数。
答案 3 :(得分:2)
我构建了一个更简单的版本JB Kohn的答案,它在缓冲区上使用split()。它适用于我尝试的较大文件。
/*
* Synchronously call fn(text, lineNum) on each line read from file descriptor fd.
*/
function forEachLine (fd, fn) {
var bufSize = 64 * 1024;
var buf = new Buffer(bufSize);
var leftOver = '';
var lineNum = 0;
var lines, n;
while ((n = fs.readSync(fd, buf, 0, bufSize, null)) !== 0) {
lines = buf.toString('utf8', 0 , n).split('\n');
lines[0] = leftOver+lines[0]; // add leftover string from previous read
while (lines.length > 1) { // process all but the last line
fn(lines.shift(), lineNum);
lineNum++;
}
leftOver = lines.shift(); // save last line fragment (may be '')
}
if (leftOver) { // process any remaining line
fn(leftOver, lineNum);
}
}
答案 4 :(得分:1)
两个潜在的问题,