我对AWS Step Functions和AWS Lambda Functions非常陌生,确实可以使用一些帮助。我有一个状态机,我要在其中检查S3存储桶中是否存在某个文件,然后让状态机遵循一个路径(如果该文件存在)和另一个路径(如果不存在)。
下面显示了我的状态机代码的开头,涵盖了此问题
{
"Comment": "This is a test for running the structure of the CustomCreate job.",
"StartAt": "PreStep",
"States": {
"PreStep": {
"Comment": "Check that all the necessary files exist before running the job.",
"Type": "Task",
"Resource": "arn:aws:lambda:us-east-1:XXXXXXXXXX:function:CustomCreate-PreStep-Function",
"Next": "Run Job Choice"
},
"Run Job Choice": {
"Comment": "This step chooses whether or not to go forward with running the main job.",
"Type": "Choice",
"Choices": [
{
"Variable": "$.FoundNecessaryFiles",
"BooleanEquals": true,
"Next": "Spin Up Cluster"
},
{
"Variable": "$.FoundNecessaryFiles",
"BooleanEquals": false,
"Next": "Do Not Run Job"
}
]
},
"Do Not Run Job": {
"Comment": "This step triggers if the PreStep fails and the job should not run.",
"Type": "Fail",
"Cause": "PreStep unsuccessful"
},
"Spin Up Cluster": {
"Comment": "Spins up the EMR Cluster.",
"Type": "Pass",
"Next": "Update Env"
},
"Update Env": {
"Comment": "Update the environment variables in the EMR Cluster.",
"Type": "Pass",
"Next": "Run Job"
},
"Run Job": {
"Comment": "Add steps to the EMR Cluster.",
"Type": "Pass",
"End": true
}
}
}
以下代码描述了我的 CustomCreate-PreStep-Function Lambda函数
exports.handler = async function(event, context, callback) {
var AWS = require('aws-sdk');
var s3 = new AWS.S3();
var params = {Bucket: 'BUCKET_NAME', Key: 'FILE_NAME'};
s3.getObject(params, function(err, data) {
if (err) {
console.log(err, err.stack);
// file does not exist
console.log("failed");
callback(null,false);
}
else {
console.log(data);
//file exist
console.log("succeeded");
var FoundNecessaryFiles = true;
// return FoundNecessaryFiles;
callback(null,event.FoundNecessaryFiles=true);
}
});
};
我已经尝试了多种方法,但是无法使其正常工作。如您所见,我正在尝试使用Lambda函数将状态为true / false的变量 FoundNecessaryFiles 传递回去,具体取决于是否找到文件,并使用该值来指导选择下一步。最好通过修复变量传回来解决此问题,因为我稍后可能需要在状态机中再次使用该方法,但是我也愿意接受另一种解决方案,无论是组合步骤还是其他可行的方法
也,在此过程中,我的下一个步骤将是启动一个 AWS EMR 集群,前提是存在适当的文件,但我也不清楚如何完成。如果有人能够使用步进功能来运行 AWS EMR 集群,我也将不胜感激。
答案 0 :(得分:1)
我解决了传递变量的最初问题,但是,我仍然可以真正使用一些帮助来使EMR集群通过Step Functions运行。
对于那些可能遇到类似问题的人,我通过将Lambda函数更改为以下内容来解决了变量传递问题
exports.handler = function(event, context, callback) {
var AWS = require('aws-sdk');
var s3 = new AWS.S3();
var params = {Bucket: 'BUCKET_NAME', Key: 'FILE_NAME'};
s3.getObject(params, function(err, data) {
if (err) {
console.log(err, err.stack);
// file does not exist
console.log("failed");
event.FoundNecessaryFiles = false;
callback(null,event);
}
else {
console.log(data);
//file exist
console.log("succeeded");
event.FoundNecessaryFiles = true;
callback(null,event);
}
});
};
我的下一个问题是设置AWS EMR集群。我当前的第一个任务是启动EMR集群,这可以通过直接使用Step Function JSON来完成,或者最好使用我在S3存储桶上找到的JSON Cluster Config文件来完成。我的下一个任务是更新EMR群集环境变量,我在S3存储桶上有一个.sh脚本可以执行此操作,我只是不知道如何使用“步进功能”将其应用于EMR群集。我的第三个任务是向EMR集群添加一个包含spark-submit命令的步骤,此命令在我的S3存储桶上的JSON配置文件中进行了描述,该文件可以通过与上传环境配置类似的方式上传到EMR集群上一步中的文件。最后,我要执行一项任务,以确保EMR集群在完成运行后终止。
无论您遵循我上面概述的结构还是知道可以更改结构的解决方案,在此方面提供的任何帮助都将不胜感激,
答案 1 :(得分:0)
这可能对某人有所帮助,因为AWS步骤功能已引入新功能。
为了在EMR群集上设置变量或部署软件,应使用BootStrap操作。您可以提供引导脚本的S3路径。 Bootstrap脚本是集群创建过程的一部分。
可以使用“步进功能”添加一个EMR步骤(同步或异步)。人们可以将spark-submit建立为Args数组。这是一个示例:
ARGS_ARRAY = [ "spark-submit",
"--master=yarn",
"--deploy-mode=cluster",
"--name=Generate Bulk File",
"--driver-cores=1",
"--driver-memory=2g",
"--executor-cores=5",
"--executor-memory=9g",
"/home/hadoop/charu/mySparkJob.py",
input_file_name,
output_file_name]