通过Node.Js生成管道Amazon S3下载流导致不完整下载

时间:2016-07-14 02:13:52

标签: node.js express encryption amazon-s3 aws-sdk

我目前正在尝试从Amazon S3下载加密文件并通过我正在生成的GPG解密来管道它。我正在使用aws-sdk作为节点(https://github.com/aws/aws-sdk-js)。

下载通常有效,但在较慢的网络连接上(我通过限制网络进行测试),文件下载将挂起几秒钟,文件将被截断(大小不匹配)。该文件现在也已损坏。我相信问题出现在spawn的某个地方,因为流速较慢可能无法正确关闭或完成响应。

我下载文件的代码:

let params = {Bucket: Bucket, Key: Key};
let readStream = s3.getObject(params).createReadStream();
gpg.decrypt(readStream, res); // res is express response object`

我的代码解密文件,然后将其传递给响应:

gpg.decrypt = function(inputStream, res) {
    let cp = require('child_process');
    let decryptionArgs = ['--decrypt', '--batch', '--yes', '--no-tty', '--passphrase', 'mypassphrase'];
    let gpg = cp.spawn('gpg', decryptionArgs);
    inputStream.on('error', (err) => res.status(500).json(err));
    gpg.on('error', (err) => res.status(500).json(err));
    inputStream.pipe(gpg.stdin);
    gpg.stdout.pipe(res);
}

我将内容类型设置为application/octet-stream,内容配置设置为attachment; filename="thefilename"

更新 我想出了这个问题,万一这有助于某人。在较慢的网络连接上(通过限制我的网络进行测试),gpg.stdout将变为unpiped。我通过为unpipe事件设置事件监听器来测试它。我能够通过使用缓冲区来解决这个问题。我仍然将输入文件流传递给我的gpg spawn,但是我没有将输出传递给响应,而是通过chunk写入响应块:

gpg.decrypt = function(inputStream, res) {
    let cp = require('child_process');
    let decryptionArgs = ['--decrypt', '--batch', '--yes', '--no-tty', '--passphrase', 'mypassphrase'];
    let gpg = cp.spawn('gpg', decryptionArgs);
    inputStream.on('error', (err) => res.status(500).json(err));
    gpg.on('error', (err) => res.status(500).json(err));

    gpg.on('close', () => res.end());
    gpg.stdout.on('data', (chunk) => res.write(chunk));
    inputStream.pipe(gpg.stdin);
}

1 个答案:

答案 0 :(得分:0)

我不是JS专家,但是做了很多低级原始HTTP工作,这就是我看到的问题。

inputStream.on('error', (err) => res.status(500) ...

这似乎只能(正确)处理在获取文件的过程中很早发生的错误。

如果稍后发生错误,一旦输出开始,就太晚了,因为http响应已经开始,200 OK已经发送到客户端。一旦你开始流式传输响应......你就会看到这里的困境。

我认为没有明显的+简单方法可以同时流式传输响应并优雅地处理延迟错误,并且根据环境如何处理这个问题,JSON甚至可能会进入响应的尾部...更改将文件截断为截断的文件,最后有噪音。

如果你知道解压缩后输出的预期字节长度,你似乎应该能够设置Content-Length响应头。当您的传输失败并且输出被截断时,用户代理(浏览器,卷曲等)最终应该意识到内容太短并且发生错误......没有办法及时回过头来做其他事情,唯一的另一个选择就是不使用流媒体 - 下载,解密,验证,返回......但这对你来说可能也不可行。