如何使用node.js获取图像URL数组并异步保存到s3?

时间:2013-06-12 20:55:33

标签: node.js

我正在上传图片网址数组以保存到S3。代码可以工作,但不是异步执行。时间戳记到控制台似乎表明首先获取和缓冲所有图像,然后将它们按顺序保存到s3。我运行了100个图像的数组,第一个图像直到第100个被提取后才提交给s3。至少它看起来像是从图像请求回调中获得控制台中的时间戳流,并且“保存到s3”时间戳在最后一次图像回调被加时间戳之前不会开始。我对节点很新,经过两天的实验,我还没有解决这个问题。

我也试过直接管道,但这要求所有文件都设置了内容长度,有些则不然。我最初将getImageFromUrl放在一个函数中,但将其分解为三个独立的小函数,以帮助找出问题所在。我正在使用request,knox for s3,以及asola.each迭代器的caolan异步库。代码如下:

var images2get = req.body.images2get;  // an array of image urls to be fetched and saved to s3
var startTime = (new Date()).getTime();

//iterate over the array and get each image, save to S3 
var imageNumber = 0;  // this needs to come before the iterator so it's defined

    async.each(images2get, getImageFromUrl, function(err){
        if(err) {
           console.log('async each failed for images2get');
        } else {
           res.send(200);
        }
    });

function getImageFromUrl(url2fetch, nextImage){
    var options = {encoding: null,
                    url: url2fetch, 
                    method: 'GET',
                    timeout: 10*1000
                    }
    request(options, function(err, fetchResponse, body){
        if(!err && fetchResponse && fetchResponse.statusCode == 200) {
            nextImage();  //we've got the image, call the iterator to fetch the next one
            var s3Config = prepareImageForS3(fetchResponse, url2fetch);
            saveToS3(body, s3Config);
        } else {
        //there was a problem fetching the url
        console.log('Error ' + fetchResponse.statusCode + ' Failed to get image from ', url2fetch.absolute);
        nextImage();
        }    
    });
};

function prepareImageForS3(fetchResponse, url2fetch) {
    console.log('preparing image ' + imageNumber + ' at ', (Date.now() - startTime));
    imageNumber += 1;
    var filename = '/' + userId + '/' + pageId + '/image' + imageNumber;
    var headers = {
      'Content-Type': fetchResponse.headers['content-type'],
      'x-amz-acl': 'public-read'
    };
    return{
        'filename': filename,
        'filetype': 'image',
        'filenumber': imageNumber,
        'headers': headers,
        'replaceSrc': true,
        'url': url2fetch
    };
};

function saveToS3(file, s3Config) {
    s3Client.putBuffer(file, s3Config.filename, s3Config.headers, function(err, res){
        console.log('image ' + imageNumber + ' submitting to s3 at ', (Date.now() - startTime));
        //console.log('response from s3 save from url, status:', res.statusCode, 'url:', res.req.url);
        if(!err && res.statusCode === 200 && s3Config.replaceSrc) {
            console.log('image ' + imageNumber + ' saved to s3 at ', (Date.now() - startTime));
        } else {
            console.log('failed to save image to S3 from ' + res.req.url)
        }    
    }); 
};

1 个答案:

答案 0 :(得分:0)

您可以使用代码改进几件事情:

  • HTTP代理

首先,node.js使用HTTP Agent,它限制了与主机的并发连接数。如果不是这样,你很容易不小心打击有数千个连接的网站。

您可以将{agent: false}传递给请求来禁用它。请注意knox already disables it

我怀疑这就是你的代码顺序运行的原因。

  • Async.each

Async.each将并行运行所有迭代。当你调用nextImage()时,你并没有告诉异步开始下一次迭代,而是说你已经完成了。所有迭代完成后,异步完成。这里的问题是,在你告诉异步完成后你继续工作。