Question

我想从互联网上下载一个zip文件并将其解压缩到内存而不保存到临时文件。我怎么能这样做？

以下是我的尝试：

var url = 'http://bdn-ak.bloomberg.com/precanned/Comdty_Calendar_Spread_Option_20120428.txt.zip';

var request = require('request'), fs = require('fs'), zlib = require('zlib');

  request.get(url, function(err, res, file) {
     if(err) throw err;
     zlib.unzip(file, function(err, txt) {
        if(err) throw err;
        console.log(txt.toString()); //outputs nothing
     });
  });

[编辑] 正如建议的那样，我尝试使用adm-zip库，但仍然无法完成这项工作：

var ZipEntry = require('adm-zip/zipEntry');
request.get(url, function(err, res, zipFile) {
        if(err) throw err;
        var zip = new ZipEntry();
        zip.setCompressedData(new Buffer(zipFile.toString('utf-8')));
        var text = zip.getData();
        console.log(text.toString()); // fails
    });

Answer 1

您需要一个可以处理缓冲区的库。最新版本的adm-zip将执行：

npm install adm-zip

我的解决方案使用http.get方法，因为它返回缓冲区块。

代码：

var file_url = 'http://notepad-plus-plus.org/repository/7.x/7.6/npp.7.6.bin.x64.zip';

var AdmZip = require('adm-zip');
var http = require('http');

http.get(file_url, function(res) {
  var data = [], dataLen = 0; 

  res.on('data', function(chunk) {
    data.push(chunk);
    dataLen += chunk.length;

  }).on('end', function() {
    var buf = Buffer.alloc(dataLen);

    for (var i = 0, len = data.length, pos = 0; i < len; i++) { 
      data[i].copy(buf, pos); 
      pos += data[i].length; 
    } 

    var zip = new AdmZip(buf);
    var zipEntries = zip.getEntries();
    console.log(zipEntries.length)

    for (var i = 0; i < zipEntries.length; i++) {
      if (zipEntries[i].entryName.match(/readme/))
        console.log(zip.readAsText(zipEntries[i]));
    }
  });
});

这个想法是创建一个缓冲区数组，并在最后将它们连接成一个新缓冲区。这是因为缓冲区无法调整大小。

<强>更新

这是一个更简单的解决方案，它使用request模块通过在选项中设置encoding: null来获取缓冲区中的响应。它还遵循重定向并自动解析http / https。

var file_url = 'https://github.com/mihaifm/linq/releases/download/3.1.1/linq.js-3.1.1.zip';

var AdmZip = require('adm-zip');
var request = require('request');

request.get({url: file_url, encoding: null}, (err, res, body) => {
  var zip = new AdmZip(body);
  var zipEntries = zip.getEntries();
  console.log(zipEntries.length);

  zipEntries.forEach((entry) => {
    if (entry.entryName.match(/readme/i))
      console.log(zip.readAsText(entry));
  });
});

响应的body是一个可以直接传递给AdmZip的缓冲区，简化了整个过程。

Answer 2

遗憾的是，您无法将响应流管道到解压缩作业中，因为节点zlib lib允许您这样做，您必须缓存并等待响应结束。我建议你在大文件的情况下将响应传输到fs流，否则你会在瞬间完全填满你的记忆！

我并不完全明白你要做什么，但是这是最好的方法。您应仅在您真正需要的时间内将数据保存在内存中，然后流式传输到csv parser 。

如果要将所有数据保存在内存中，可以将csv解析器方法fromPath替换为带有缓冲区的from，而直接返回getData unzipped < / em>的

您可以使用AMDZip（如@mihai所说）而不是node-zip，只需注意，因为AMDZip尚未在npm发布，因此您需要：

$ npm install git://github.com/cthackers/adm-zip.git

<强> N.B。假设：zip文件只包含一个文件

var request = require('request'), fs = require('fs'), csv = require('csv') NodeZip = require('node-zip') function getData(tmpFolder, url, callback) { var tempZipFilePath = tmpFolder + new Date().getTime() + Math.random() var tempZipFileStream = fs.createWriteStream(tempZipFilePath) request.get({ url: url, encoding: null }).on('end', function() { fs.readFile(tempZipFilePath, 'base64', function (err, zipContent) { var zip = new NodeZip(zipContent, { base64: true }) Object.keys(zip.files).forEach(function (filename) { var tempFilePath = tmpFolder + new Date().getTime() + Math.random() var unzipped = zip.files[filename].data fs.writeFile(tempFilePath, unzipped, function (err) { callback(err, tempFilePath) }) }) }) }).pipe(tempZipFileStream) } getData('/tmp/', 'http://bdn-ak.bloomberg.com/precanned/Comdty_Calendar_Spread_Option_20120428.txt.zip', function (err, path) { if (err) { return console.error('error: %s' + err.message) } var metadata = [] csv().fromPath(path, { delimiter: '|', columns: true }).transform(function (data){ // do things with your data if (data.NAME[0] === '#') { metadata.push(data.NAME) } else { return data } }).on('data', function (data, index) { console.log('#%d %s', index, JSON.stringify(data, null, ' ')) }).on('end',function (count) { console.log('Metadata: %s', JSON.stringify(metadata, null, ' ')) console.log('Number of lines: %d', count) }).on('error', function (error) { console.error('csv parsing error: %s', error.message) }) })

Answer 3

如果您使用的是MacOS或Linux，则可以使用unzip命令从stdin解压缩。

在这个示例中，我将zip文件从文件系统读取到Buffer对象中，但它可以正常工作还有一个下载的文件：

// Get a Buffer with the zip content
var fs = require("fs")
  , zip = fs.readFileSync(__dirname + "/test.zip");


// Now the actual unzipping:
var spawn = require('child_process').spawn
  , fileToExtract = "test.js"
    // -p tells unzip to extract to stdout
  , unzip = spawn("unzip", ["-p", "/dev/stdin", fileToExtract ])
  ;

// Write the Buffer to stdin
unzip.stdin.write(zip);

// Handle errors
unzip.stderr.on('data', function (data) {
  console.log("There has been an error: ", data.toString("utf-8"));
});

// Handle the unzipped stdout
unzip.stdout.on('data', function (data) {
  console.log("Unzipped file: ", data.toString("utf-8"));
});

unzip.stdin.end();

实际上只是节点版本：

cat test.zip | unzip -p /dev/stdin test.js

编辑：值得注意的是，如果输入的zip太大而无法从stdin读取一个块，这将无效。如果您需要阅读更大的文件，并且您的zip文件只包含一个文件，则可以使用funzip代替unzip：

var unzip = spawn("funzip");

如果您的zip文件包含多个文件（并且您想要的文件不是第一个文件），我不敢说你运气不好。解压缩需要在.zip文件中查找，因为zip文件只是一个容器，解压缩可能只是解压缩其中的最后一个文件。在这种情况下，您必须暂时保存文件（node-temp派上用场）。

Answer 4

两天前，模块node-zip已经发布，它是仅限JavaScript版本的Zip：JSZip的包装。

var NodeZip = require('node-zip')
  , zip = new NodeZip(zipBuffer.toString("base64"), { base64: true })
  , unzipped = zip.files["your-text-file.txt"].data;

Answer 5

var fs = require（＆＃39; fs）; var unzip = require（＆＃39; unzip＆＃39;）;

//将a.zip解压缩到当前字典

fs.createReadStream（＆＃39; ./ path / a.zip＆＃39;）。pipe（unzip.Extract（{path：＆＃39; ./ path /＆＃39;}））;

我使用了解压缩模块，并且工作正常。

如何在NodeJs中下载和解压缩内存中的zip文件？

5 个答案: