更多源数据来自我需要定期轮询的Web服务端点。获得数据后,我可以使用pyspark执行传统的ETL,最终将数据写入S3和Redshift。
我不确定如何进行初始提取,甚至不知道我应该在AWS Glue文档中寻找什么。可以"来源" Web服务端点是否被视为与数据目录相关的表?
任何例子都会更好。
答案 0 :(得分:0)
我不相信这个消息来源' webservice端点可以被视为Glue Data Catalog中的表。但是,要让它发挥作用应该不会太难。
Add Job
)按钮创建作业。这里的重要部分是确保你设置你的来源'如步骤2中的表格设置。This page from the AWS documentation可以更详细地描述这个过程。