我在node.js应用程序上工作,处理大量地理空间数据并将其从文件加载到JSON文档数据库中。
源数据采用大型(最多10 GB)XML文档的形式。我使用sax.js来解析源文档,这为我提供了代表XML结构的JavaScript对象:
{ name: 'gml:featureMember',
attributes: {},
isSelfClosing: false,
parent: null,
children:
[ '\r\n ',
{ name: 'AX_BesondereFlurstuecksgrenze',
attributes: { 'gml:id': 'DEHHALKAn0007s8z' },
isSelfClosing: false,
children:
[ '\r\n ',
{ name: 'gml:identifier',
attributes: { codeSpace: 'http://...' },
isSelfClosing: false,
children: [ 'urn:adv:oid:...' ] },
'\r\n ',
{ name: 'lebenszeitintervall',
attributes: {},
isSelfClosing: false,
children:
[ '\r\n ',
{ name: 'AA_Lebenszeitintervall',
attributes: {},
isSelfClosing: false,
children:
[ '\r\n ',
{ name: 'beginnt',
attributes: {},
isSelfClosing: false,
children: [ '2010-03-07T08:32:05Z' ] },
'\r\n ' ] },
'\r\n ' ] },
...
但是,sax.js显然无法访问当前片段。所以我正在寻找一种从sax.js或不同的流解析器获取XML片段的方法。因为我在Windows上,我只想使用不需要编译的模块。
答案 0 :(得分:1)
根据@Jagrut的建议,我搜索了一个与sax.js一起使用的node.js的XPath实现,并且不需要DOM或本机库。我发现saxpath符合要求。
用法如下:
var fs = require('fs');
var saxParser = require('sax').createStream(true);
var saxPath = require('saxpath');
var dataURL = '../data/ALKIS_FHH_0167.xml';
var count = 0;
parseXML(dataURL);
function parseXML(fileName) {
var fileStream = fs.createReadStream(fileName);
var streamer = new saxPath.SaXPath(saxParser, '//gml:featureMember');
streamer.on('match', function(xml) {
addFeature(xml);
});
fileStream.pipe(saxParser);
}
function addFeature (featureFragment) {
// for now we just count features...
if (count % 100 == 0) {
console.log("Parsing fragment " + count);
}
count++;
}
它有一个比直接使用sax.js更好的API。我注意到的唯一警告是解析有时会停止几秒钟,可能是由于GC。我用最高1.7GB的XML文件测试了这个。