如何在逐步功能中包含AWS爬虫

时间:2020-01-29 11:20:21

标签: amazon-web-services aws-glue aws-step-functions

这是我的要求: 我在AWS Glue中有一个履带和pyspark作业。我必须使用步进功能来设置工作流程。

问题1:如何将“抓取工具”添加为第一个状态。我需要提供哪些参数(资源,类型等)。 问题2:如何确保下一个状态-Pyspark作业仅在搜寻器成功运行后才启动。 问题3:有什么办法可以安排步进功能状态机在特定时间运行?

1 个答案:

答案 0 :(得分:1)

几个月后才可以回答这个问题,但这可以在step函数中完成。 您可以创建以下状态来实现它:

  • TriggerCrawler:任务状态:触发Lambda函数,在此lambda函数中,您可以编写代码以使用任何aws-sdk触发AWS Glue Crawler
  • PollCrawlerStatus:任务状态:Lambda函数,用于轮询Crawler状态并将其作为lambda的响应返回。
  • IsCrawlerRunSuccessful:选择状态:根据Glue搜寻器的状态,您可以将Next状态设为Choice状态,它将进入触发您的Glue作业的下一个状态(一旦Glue搜寻器状态为' READY'),或先移至Wait State几秒钟,然后再进行轮询。
  • RunGlueJob:任务状态:触发胶粘作业的Lambda函数。
  • WaitForCrawler:等待状态:等待'n'秒,然后再次轮询状态。
  • Finish:成功状态。

这是此步进函数的外观:

enter image description here