如何使用AWS Glue开始从Web服务端点提取数据?

时间:2018-04-19 21:57:47

标签: web-services amazon-web-services pyspark aws-glue

更多源数据来自我需要定期轮询的Web服务端点。获得数据后,我可以使用pyspark执行传统的ETL,最终将数据写入S3和Redshift。

我不确定如何进行初始提取,甚至不知道我应该在AWS Glue文档中寻找什么。可以"来源" Web服务端点是否被视为与数据目录相关的表?

任何例子都会更好。

1 个答案:

答案 0 :(得分:0)

我不相信这个消息来源' webservice端点可以被视为Glue Data Catalog中的表。但是,要让它发挥作用应该不会太难。

  1. 定期轮询此Web服务端点以检索您之后的数据。所调查的数据应放入S3'来源。桶/位置。
  2. 在Glue Data Catalog中设置一个表,该表描述了从步骤1中轮询的数据。根据这些数据的样子,您可以使用Crawler创建表,但我有更好的体验手动创建我的表(最初,最终使用CloudFormation)。
  3. 根据提示,使用“作业创建向导”(通过“作业”视图中的Add Job)按钮创建作业。这里的重要部分是确保你设置你的来源'如步骤2中的表格设置。
  4. 创建作业后,您将能够修改脚本(Python或Scala)以应用您选择的ETL。
  5. This page from the AWS documentation可以更详细地描述这个过程。