我有一个大型JSON文件,我想稍微转换并作为新表发送到Google BigQuery。我在过去使用node.js中的流效果很好,我认为这是解决这个问题的一个不错的解决方案。我正在使用official Google node.js BigQuery API。我能够创建一个没有问题的正确模式的表。我想我准备好了解决方案。该程序完成正常,但没有数据最终登陆我的BigQuery表。
相关代码如下
我的node.js流代码:
fs.createReadStream('testfile.json')
.pipe(require('split')())
.pipe(require('event-stream').mapSync((data) => {
if (data.length > 1) {
let obj;
try {
obj = JSON.parse('{' + (data[data.length - 1] === ',' ? data.slice(0, data.length - 1) : data) + '}');
} catch (e) {
console.error('error parsing!', e, data);
}
let user = Object.keys(obj)[0];
let company = obj[user][0];
let item = {
user: user,
company: company
};
console.log(item);
return JSON.stringify(item);
}
}))
.pipe(table.createWriteStream('json'))
.on('error', (e) => {
console.error('Error!', e);
})
.on('complete', (job) => {
console.log('All done!', job);
});
testfile.json
看起来像这样:
{
"a":["a company", "1234567"],
"b":["b company", "1234214"],
"c":["c company", "12332231"]
}
当我运行程序时,输出看起来像:
{ user: 'a', company: 'a company' }
{ user: 'b', company: 'b company' }
{ user: 'c', company: 'c company' }
All done! Job {
metadata:
{ kind: 'bigquery#job',
/* lots more data here */
docs for createWriteStream
关于数据输入写入流的格式应该是非常详细的,所以我觉得我有点盲目。
答案 0 :(得分:0)
找出我需要做的事情a)使导入工作和b)更多地了解正在进行的事情。
指定您将向createWriteStream
提供换行符分隔的JSON文件:
let firehose = table.createWriteStream({
sourceFormat: 'NEWLINE_DELIMITED_JSON'
});
和
确保JSON转换器返回换行符分隔的JSON:
return JSON.stringify(item) + '\n';
firehose writeStream
包含您可以订阅的error
和complete
个活动,但表writeStream
的{{1}} complete
} event提供一个Job作为一个参数,它本身有更多可以订阅的事件,以获得更多的洞察力。
let moment = require('moment');
firehose.on('error', (e) => {
console.error('firehose error!', e);
});
firehose.on('complete', (job) => {
console.log('Firehose into BigQuery emptied! BigQuery Job details:', job.metadata.status.state, job.metadata.jobReference.jobId);
console.log('Now we wait for the Job to finish...');
job.on('complete', (job) => {
console.log('BigQuery Job loaded', job.statistics.load.inputFileBytes, 'bytes yielding', job.statistics.load.outputRows, 'rows and', job.statistics.load.badRecords, 'bad records in', moment(parseInt(job.statistics.endTime)).from(moment(parseInt(job.statistics.startTime)), true));
});
job.on('error', (e) => { console.error('Job error', e); });
});