将XML数据导入AWS

时间:2015-08-28 05:36:16

标签: xml amazon-web-services amazon-emr amazon-data-pipeline

我正在寻找AWS上可用的最佳工具来安排将查询外部HTTP服务器的任务/作业。外部服务器回复XML文件,因此理想情况下文件将存储在S3然后处理,抛光数据移动到Redshift。我正在研究AWS Data Pipeline和Amazon EMR,但他们主要关注的是在AWS中移动数据。 有什么建议吗? 感谢

2 个答案:

答案 0 :(得分:0)

Amazon Simple Workflow Service(SWF)可能是一种解决方案。我确信SWF可以做到这一点,但它有点沉重。您需要更多编程然后数据管道。

SWF&数据管道:

  

问:AWS Data Pipeline与Amazon Simple Workflow Service有何不同?

     

虽然这两项服务都提供执行跟踪,重试和异常处理功能以及运行任意操作的能力,但AWS Data Pipeline专门用于促进大多数数据驱动工作流程中常见的特定步骤 - 特别是,在输入数据满足特定的准备标准后执行活动,轻松地在不同数据存储之间复制数据,以及调度链式变换。这种高度特定的关注意味着可以快速创建其工作流定义,而无需代码或编程知识。   Ref.

或者您可以使用SWF创建计划,然后将流程逻辑放入AWS Lambda。使用SWF触发器AWS Lambda函数将更简单。

答案 1 :(得分:0)

如果您正在使用AWS DataPipeline,您可以编写可以从目标服务器获取XML的ShellCommandActivity(python脚本或任何cust exe),将其固定为CSV并将其保留到s3,然后您可以使用RedshiftCopyActivity来指示Redshift从该位置加载文件。