应用错误收集

时间：2018-04-19 21:57:47

标签： web-services amazon-web-services pyspark aws-glue

更多源数据来自我需要定期轮询的Web服务端点。获得数据后，我可以使用pyspark执行传统的ETL，最终将数据写入S3和Redshift。

我不确定如何进行初始提取，甚至不知道我应该在AWS Glue文档中寻找什么。可以＆＃34;来源＆＃34; Web服务端点是否被视为与数据目录相关的表？

任何例子都会更好。

答案 0 :(得分：0)

我不相信这个消息来源＆＃39; webservice端点可以被视为Glue Data Catalog中的表。但是，要让它发挥作用应该不会太难。

定期轮询此Web服务端点以检索您之后的数据。所调查的数据应放入S3＆＃39;来源。桶/位置。
在Glue Data Catalog中设置一个表，该表描述了从步骤1中轮询的数据。根据这些数据的样子，您可以使用Crawler创建表，但我有更好的体验手动创建我的表（最初，最终使用CloudFormation）。
根据提示，使用“作业创建向导”（通过“作业”视图中的Add Job）按钮创建作业。这里的重要部分是确保你设置你的来源＆＃39;如步骤2中的表格设置。
创建作业后，您将能够修改脚本（Python或Scala）以应用您选择的ETL。

This page from the AWS documentation可以更详细地描述这个过程。