我正在尝试查找有关AWS Data Pipeline支持的数据源的文档。我需要做的是将SQL Server RDS数据导出到S3。我发现大量文档说数据管道可以使用RDS作为源,但我看到的每个例子都只用于MySQL RDS。
有没有人有数据管道和SQL Server RDS的经验?如果是这样,您使用什么数据节点连接到SQL Server RDS(例如MySqlDataNode,SqlDataNode)?
最终目标是将数据从SQL Server RDS移动到AWS Red Shift。
由于
答案 0 :(得分:1)
我们放弃了使用数据管道。我建议使用普通的ETL工具。如果您正在运行任何Windows服务器,那么SSIS可能是最佳选择,否则请查看Pentaho或Talend。
你有非ASCII数据吗?将数据从SQL Server的UTF16-LE转换为UTF8是我最头疼的问题。我在博客上写了一些解决方案(http://blog.joeharris76.com/2013/09/migrating-from-sql-server-to-redshift.html)。
答案 1 :(得分:0)
数据管道似乎只是内置了对MySQL RDS的支持。
一种选择是启动EMR群集,并使用sqoop。您可以使用sqoop导入到s3,并使用COPY命令(或数据管道)将其直接加载到Redshift中。
有一个数据管道EMRResource。您需要创建一个引导任务,在主服务器上下载并设置sqoop并获取相关的jdbc驱动程序。
当我想要从主服务器上的shell脚本运行sqoop
命令时,EMRActivity似乎也想要一个jar文件。我不确定这是多么容易解决。也许是带有EMRResource的ShellCommandActivity?