这是我的要求: 我在AWS Glue中有一个履带和pyspark作业。我必须使用步进功能来设置工作流程。
问题1:如何将“抓取工具”添加为第一个状态。我需要提供哪些参数(资源,类型等)。 问题2:如何确保下一个状态-Pyspark作业仅在搜寻器成功运行后才启动。 问题3:有什么办法可以安排步进功能状态机在特定时间运行?
答案 0 :(得分:1)
几个月后才可以回答这个问题,但这可以在step函数中完成。 您可以创建以下状态来实现它:
TriggerCrawler
:任务状态:触发Lambda函数,在此lambda函数中,您可以编写代码以使用任何aws-sdk触发AWS Glue Crawler PollCrawlerStatus
:任务状态:Lambda函数,用于轮询Crawler状态并将其作为lambda的响应返回。IsCrawlerRunSuccessful
:选择状态:根据Glue搜寻器的状态,您可以将Next状态设为Choice状态,它将进入触发您的Glue作业的下一个状态(一旦Glue搜寻器状态为' READY'),或先移至Wait State
几秒钟,然后再进行轮询。RunGlueJob
:任务状态:触发胶粘作业的Lambda函数。WaitForCrawler
:等待状态:等待'n'秒,然后再次轮询状态。Finish
:成功状态。这是此步进函数的外观: