我正在Node Js中读取一个大型XML文件(~1.5gb)。我正在尝试对其进行流式处理并使用大量数据执行某些操作,但我发现很难理解文档。
我目前的简单代码是:
var fs = require('fs');
var stream = fs.createReadStream('xml/bigxmlfile.xml');
stream.on('data', function(chunk){
console.log(chunk)
});
控制台提供了一堆buffer
十六进制(我认为)代码,如下所示:
<Buffer 65 61 6e 2d 63 75 74 20 67 72 69 64 20 6c 69 6e 65 73 20 74 68 65 20 73 70 72 65 61 64 20 63 6f 6c 6c 61 72 20 61 6e 64 20 6d 69 74 65 72 65 64 2c 20 74 ...>
<Buffer 65 79 77 6f 72 64 73 3e 3c 2f 6b 65 79 77 6f 72 64 73 3e 3c 75 70 63 3e 34 32 39 35 36 30 31 33 38 33 38 39 3c 2f 75 70 63 3e 3c 6d 31 3e 36 38 38 39 31 ...>
<Buffer 6f 75 6e 74 3e 3c 63 75 72 72 65 6e 63 79 3e 55 53 44 3c 2f 63 75 72 72 65 6e 63 79 3e 3c 2f 63 6f 73 74 3e 3c 69 6e 66 6f 72 6d 61 74 69 6f 6e 3e 3c 2f ...>
<Buffer 65 20 62 72 69 65 66 73 20 74 68 61 74 20 73 69 74 20 63 6f 6d 66 6f 72 74 61 62 6c 79 20 61 74 20 74 68 65 20 68 69 70 73 2e 20 43 6f 6c 6f 72 28 73 29 ...>
<Buffer 3c 64 65 73 63 72 69 70 74 69 6f 6e 3e 3c 73 68 6f 72 74 3e 43 7a 65 63 68 20 63 72 79 73 74 61 6c 73 20 73 70 72 69 6e 6b 6c 65 20 61 20 73 6c 69 6e 67 ...>
我也试过了:
var fs = require('fs');
var parseString = require('xml2js').parseString;
var stream = fs.createReadStream('xml/lsnordstrom.xml');
stream.on('data', function(chunk){
//do something on file data
parseString(chunk, function (err, result) {
console.log(result);
});
});
(所以我可以读取将XML流解析为JSON)但我在控制台中得到undefined
个结果。
如何将此数据实际转换为有用的数据?
答案 0 :(得分:11)
您可以像这样设置流编码:
var stream = fs.createReadStream('xml/lsnordstrom.xml');
stream.setEncoding('utf8');
或者将缓冲区转换为字符串:
stream.on('data', function(chunk) {
chunk.toString('utf8');
});
此外,要解析像您尝试的XML,您需要一个流解析器。