PapaParse和Highland

时间:2018-02-05 22:37:58

标签: node.js csv papaparse node-streams highland.js

我必须在NodeJS中解析一个非常大的CSV文件并将其保存在一个数据库(异步操作)中,一次最多允许500个条目。由于内存限制,我必须流式传输CSV文件,并希望使用PapaParse来解析CSV文件(因为在我的情况下效果最好)。

由于PapaParse使用回调样式方法来解析Node.js流,我没有看到很容易组合高地(用于批处理和数据转换)和PapaParse。因此,我尝试使用ParseThrough流将数据写入并读取具有高地的流以进行批处理:

const csv = require('papaparse');
const fs = require('fs');
const highland = require('highland');
const { PassThrough } = require('stream');

const passThroughStream = new PassThrough({ objectMode: true });

csv.parse(fileStream, {
  step: function(row) {
    // Write data to stream
    passThroughStream.write(row.data[0]);
  },
  complete: function() {
    // Somehow "end" the stream
    passThroughStream.write(null);
  },
});

highland(passThroughStream)
  .map((data) => {
    // data transform
  })
  .batch(500)
  .map((data) => {
    // Save up to 500 entries in database (async call)
  });

显然,这不起作用,也没有做任何事情。是这样的甚至是可能的甚至更好的方法来解析非常大的CSV文件并将行保存在数据库中(最多500个批次)?

修改:使用csv包(https://www.npmjs.com/package/csv)可能会这样(fast-csv也一样):

highland(fileStream.pipe(csv.parse()))
  .map((data) => {
    // data transform
  })
  .batch(500)
  .map((data) => {
    // Save up to 500 entries in database (async call)
  });

但遗憾的是,两种NPM软件包都无法在所有情况下正确解析CSV文件。

1 个答案:

答案 0 :(得分:1)

快速查看papaparse后,我决定在scramjet中实施CSV解析器。

fileStream.pipe(new scramjet.StringStream('utf-8'))
    .csvParse(options)
    .batch(500)
    .map(items => db.insertArray('some_table', items))

我希望这对你有用。 :)