AWS Lambda / Aws批处理工作流

时间:2017-06-22 15:06:45

标签: java amazon-web-services amazon-s3 workflow aws-batch

我写了一个lambda,它被s3 bucket触发,解压zip文件并处理里面的文本文件。由于lambda内存的限制,我需要将我的流程转移到类似AWS批处理的东西。如果我错了,请纠正我,但我的工作流程看起来应该是这样的。

work flow

我相信我需要写一个lambda来将s3桶的位置放在amazons上SQS是一个AWS批处理可以读取位置并进行所有解压缩/数据处理他们是更多的内存。

这是我当前的lambda,它接受s3存储桶触发的事件,检查它是否是zip文件,然后将该s3 Key的名称推送到SQS。 我应该告诉AWS批处理在我的lambda中开始读取队列吗? 我对AWS来说是全新的,不确定是从这里开始的。

public class dockerEventHandler implements RequestHandler<S3Event, String> {

private static BigData app = new BigData();
private static DomainOfConstants CONST = new DomainOfConstants();
private static Logger log = Logger.getLogger(S3EventProcessorUnzip.class);

private static AmazonSQS SQS;
private static CreateQueueRequest createQueueRequest;
private static Matcher matcher;
private static String srcBucket, srcKey, extension, myQueueUrl;

@Override
public String handleRequest(S3Event s3Event, Context context) 
{
    try {
        for (S3EventNotificationRecord record : s3Event.getRecords())
        {
            srcBucket = record.getS3().getBucket().getName();
            srcKey = record.getS3().getObject().getKey().replace('+', ' ');
            srcKey = URLDecoder.decode(srcKey, "UTF-8");
            matcher = Pattern.compile(".*\\.([^\\.]*)").matcher(srcKey);

            if (!matcher.matches()) 
            {
                log.info(CONST.getNoConnectionMessage() + srcKey);
                return "";
            }
            extension = matcher.group(1).toLowerCase();

            if (!"zip".equals(extension)) 
            {
                log.info("Skipping non-zip file " + srcKey + " with extension " + extension);
                return "";
            }
            log.info("Sending object location to key" + srcBucket + "//" + srcKey);

            //pass in only the reference of where the object is located
            createQue(CONST.getQueueName(), srcKey);
        }
    }
    catch (IOException e)
    {
        log.error(e);           
    }
    return "Ok";
} 

/*
 * 
 * Setup connection to amazon SQS
 * TODO - Find updated api for sqs connection to eliminate depreciation
 * 
 * */
@SuppressWarnings("deprecation")
public static void sQSConnection() {
    app.setAwsCredentials(CONST.getAccessKey(), CONST.getSecretKey());       
    try{
        SQS = new AmazonSQSClient(app.getAwsCredentials()); 
        Region usEast1 = Region.getRegion(Regions.US_EAST_1);
        SQS.setRegion(usEast1);
    } 
    catch(Exception e){
        log.error(e);       
    }
}

//Create new Queue
public static void createQue(String queName, String message){
    createQueueRequest = new CreateQueueRequest(queName);
    myQueueUrl = SQS.createQueue(createQueueRequest).getQueueUrl();
    sendMessage(myQueueUrl,message);
}

//Send reference to the s3 objects location to the queue
public static void sendMessage(String SIMPLE_QUE_URL, String S3KeyName){
    SQS.sendMessage(new SendMessageRequest(SIMPLE_QUE_URL, S3KeyName));
}

//Fire AWS batch to pull from que
private static void initializeBatch(){
    //TODO
}

我已设置docker并了解docker图像。我相信我的docker镜像应该包含读取队列的所有代码,解压缩,处理并将文件打包到RDS中,所有这些都在一个docker镜像/容器中。

我正在寻找有类似事情可以分享帮助的人。有点像:

先生。 S3:嘿lambda我有一个文件

先生。 Lambda:好的S3我看到了你,你可以批量解压缩并为此做点什么

先生。批处理:Gotchya先生lambda,生病了,并把它放在RDS或一些数据库之后。

我还没有编写类/ docker图像,但我已完成所有代码处理/解压缩并开始完成rds。由于某些文件为1GB或更大,Lambda仅限于内存。

1 个答案:

答案 0 :(得分:4)

好的,在查看Batch上的AWS文档后,您不需要SQS队列。 Batch有一个名为Job Queue的概念,类似于SQS FIFO队列,但不同之处在于这些作业队列具有优先级,并且其中的作业可以依赖于其他作业。基本过程是:

  1. 首先,奇怪的部分是设置IAM角色,以便容器代理可以与容器服务进行通信,AWS批处理能够在需要时启动各种实例(如果您确实发现实例,还需要单独的角色) 。有关所需权限的详细信息,请参阅此文档(PDF)around page 54
  2. 现在,完成后你就设置了一个计算环境。这些是EC2按需或包含容器的现场实例。工作在容器级别上运行。这个想法是您的计算环境是您的作业容器可以使用的最大资源分配。一旦达到该限制,您的工作就必须等待资源被释放。
  3. 现在您创建一个作业队列。这会将作业与您创建的计算环境相关联。
  4. 现在您创建一个作业定义。好吧,从技术上讲,你不需要也可以通过lambda来做到这一点,但这会使事情变得容易一些。您的工作定义将指示您的工作需要哪些容器资源(您当然可以在lambda中覆盖它)
  5. 现在这一切都已完成,你将要创建一个lambda函数。这将由您的S3存储桶事件触发。该函数将需要必要的IAM权限才能对批处理服务(以及任何其他权限)运行提交作业。基本上所有lambda需要做的是将调用提交作业调用到AWS批处理。您需要的基本参数是作业队列和作业定义。您还将为所需的zip设置S3键作为作业的参数。
  6. 现在,当触发相应的S3事件时,它会调用lambda,然后lambda将作业提交到AWS批处理作业队列。然后假设设置很好,它将很乐意提取资源来处理你的工作。请注意,根据EC2实例大小和分配的容器资源,这可能需要一些时间(比准备Lambda函数要长得多)。