使用AWS Pipeline进行夜间数据加载

时间:2015-11-20 18:15:27

标签: amazon-web-services amazon-data-pipeline

我有以下每晚运行的流程:

  1. 从FTP服务器获取XML
  2. 使用许多XSLT将XML转换为为MySql格式化的XML
  3. 使用“LOAD XML”mysql命令
  4. 加载新XML

    我一直在阅读有关AWS Data Pipelines的内容,而不是让我在Ec2实例上运行此过程,听起来aws管道可能适用于此但我有几个问题:

    • 使用步骤2,xslt具有一些运行的自定义函数。目前转换是使用.NET控制台应用程序完成的,但如果有办法在云端lambda中执行此操作,我可以将其转换为Node
    • 管道可以在数据库上运行LOAD XML命令吗?我想我必须将xml输出到s3桶吗?

    AWS管道是否适合完成此任务,或者我朝错误的方向前进?

1 个答案:

答案 0 :(得分:1)

AWS Data Pipeline非常有用。请参阅github存储库https://github.com/awslabs/data-pipeline-samples

中的以下示例

ShellCommandWithFTP

RedshiftToRDS

您可以将xml转换为CSV并使用CopyActivity http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-copyactivity.html