是否可以在新文件上触发AWS Glue抓取工具,并将其上传到S3存储桶,因为抓取工具“指向”该存储桶?换句话说:文件上传会生成一个事件,导致AWS Glue抓取工具对其进行分析。我知道有基于计划的爬行,但从未找到基于事件的爬行。
答案 0 :(得分:6)
不,目前还没有直接的方法可以调用AWS Glue抓取工具来响应上传到S3存储桶。 S3事件通知只能发送到:
但是,编写一小段Lambda代码以使用相关语言SDK以编程方式调用Glue抓取工具是微不足道的。
答案 1 :(得分:2)
作为快速入门,这里有一个详尽的说明,介绍了如何在Python中创建Lambda来做到这一点。这是我第一次为YMMV创建Lambda。
"Action": "glue:StartCrawler",
"Resource": "*"
来自未来导入print_function
import json
import boto3
print('Loading function')
glue = boto3.client(service_name='glue', region_name='ap-southeast-2',
endpoint_url='https://glue.ap-southeast-2.amazonaws.com')
def lambda_handler(event, context):
#print("Received event: " + json.dumps(event, indent=2))
try:
glue.start_crawler(Name='my-glue-crawler')
except Exception as e:
print(e)
print('Error starting crawler')
raise e
最后,假设您选择在开发时应禁用触发器,请在设计器面板中单击S3触发器并确保已启用(进行此更改后,您可能需要保存lambda)
就是这样,但是请注意,如果搜寻器已经在运行,则将引发异常,因此,如果您频繁上传或进行长时间的搜寻,则需要处理该异常。参见:https://docs.aws.amazon.com/glue/latest/dg/aws-glue-api-crawler-crawling.html#aws-glue-api-crawler-crawling-StartCrawler
(抱歉,如果代码格式不正确-到处都是SO预览)
答案 2 :(得分:0)