有没有办法在AWS Glue作业结束时触发AWS Lambda函数?

时间:2018-02-28 16:43:41

标签: aws-lambda etl aws-glue

目前我正在使用AWS Glue作业将数据加载到RedShift中,但在加载之后,我需要使用AWS Lambda函数运行一些数据清理任务。有没有办法在Glue作业结束时触发Lambda函数? Lambda函数可以使用SNS消息触发,但我找不到在Glue作业结束时发送SNS的方法。

4 个答案:

答案 0 :(得分:3)

没有。目前,您无法在Glue作业结束时触发lambda函数。原因是AWS在Lambda中尚未提供此触发器。如果在创建lambda函数后查看AWS lambda触发器列表,您将看到它将大多数AWS服务作为触发器而不是AWS Glue。所以,就目前而言,这是不可能的,但可能在将来。

但我想提一下,您可以使用lambda python脚本实际控制胶水脚本的流程。 (我使用python做过,我相信可能有其他语言支持这个)。我的用例是,无论何时我在S3存储桶中上传任何对象,它都会获得lambda函数触发器,我从中读取目标文件并启动我的粘合作业。一旦胶水作业的状态完成,我会将我的文件写回链接到此Lambda函数的S3存储桶。

答案 1 :(得分:1)

由于AWS Glue已经开始支持python,您可以按照以下路径实现您的需求。下面的示例脚本显示了如何执行此操作 -

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
import boto3   ## Step-2

## @params: [JOB_NAME]
args = getResolvedOptions(sys.argv, ['JOB_NAME'])

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)

## Do all ETL stuff here

## Once the ETL completes
lambda_client = boto3.client('lambda')  ## Step-3
response = lambda_client.invoke(FunctionName='string')  ## Step-4
  1. 创建基于python的Glue Job(在Redshift上执行ETL)
  2. 在作业脚本中,导入boto3(需要将此包作为脚本库放置)。
  3. 使用boto3
  4. 建立与lambda的连接
  5. ETL完成后,使用boto3 lambda invoke()调用lambda函数。
  6. 请确保您在创建Glue作业时使用的角色具有调用lambda函数的权限。

    有关lambda here的信息,请参阅Boto3文档。

答案 2 :(得分:0)

可以在S3 put上触发Lambda。您可以在S3上放置一个虚拟文件作为最后一个粘合工作;这将反过来触发lambda。我测试了这个。

答案 3 :(得分:0)

@ace和@adeel是解决方案的一部分,但是您可以通过使用以下事件模式创建CloudWatch Rule来解决此问题:

{
  "source": [
    "aws.glue"
  ],
  "detail-type": [
    "Glue Job State Change"
  ],
  "detail": {
    "jobName": [
      "<YourJobName>"
    ],
    "state": [
      "SUCCEEDED"
    ]
  }
}