AWS Data Pipeline支持SQL Server RDS

时间:2014-04-01 06:11:50

标签: amazon-redshift rds amazon-data-pipeline

我正在尝试查找有关AWS Data Pipeline支持的数据源的文档。我需要做的是将SQL Server RDS数据导出到S3。我发现大量文档说数据管道可以使用RDS作为源,但我看到的每个例子都只用于MySQL RDS。

有没有人有数据管道和SQL Server RDS的经验?如果是这样,您使用什么数据节点连接到SQL Server RDS(例如MySqlDataNode,SqlDataNode)?

最终目标是将数据从SQL Server RDS移动到AWS Red Shift。

由于

2 个答案:

答案 0 :(得分:1)

我们放弃了使用数据管道。我建议使用普通的ETL工具。如果您正在运行任何Windows服务器,那么SSIS可能是最佳选择,否则请查看Pentaho或Talend。

你有非ASCII数据吗?将数据从SQL Server的UTF16-LE转换为UTF8是我最头疼的问题。我在博客上写了一些解决方案(http://blog.joeharris76.com/2013/09/migrating-from-sql-server-to-redshift.html)。

答案 1 :(得分:0)

数据管道似乎只是内置了对MySQL RDS的支持。

一种选择是启动EMR群集,并使用sqoop。您可以使用sqoop导入到s3,并使用COPY命令(或数据管道)将其直接加载到Redshift中。

有一个数据管道EMRResource。您需要创建一个引导任务,在主服务器上下载并设置sqoop并获取相关的jdbc驱动程序。

当我想要从主服务器上的shell脚本运行sqoop命令时,EMRActivity似乎也想要一个jar文件。我不确定这是多么容易解决。也许是带有EMRResource的ShellCommandActivity?