Sqoop导出到Aurora RDS的速度极慢

时间:2018-10-18 06:12:14

标签: mysql sqoop hadoop2 amazon-emr amazon-rds-aurora

我正在尝试将900个文件中的130GB数据从S3导出到Auroa / MySql RDS。 我有10r4.4xlarge配置的10个节点集群。 而且Aurora在

Aurora : db.r3.2xlarge 8 CPU, 61 GB RAM)

另外,当我运行Sqoop命令时,我可以看到917个映射器已经启动。 但是导出仍然非常缓慢。加载所有数据需要两个多小时。

这是我要执行的Sqoop命令。

sqoop export \
--connect jdbc:mysql://a205067-pppp-ec2.abcd.us-east-1.rds.amazonaws.com/tprdb \
--username user \
--password Welcome12345 \
--table UniverseMaster \
--export-dir s3://205067-pppp-latest-new/output/processing/NextIteration/ \
--fields-terminated-by  '|' \
--num-mappers 1000 \
--direct \
-- --default-character-set=latin1

有什么方法可以改善Sqoop导出吗? 我尝试使用每笔交易的记录,但结果仍然相同。

请提出建议。

1 个答案:

答案 0 :(得分:0)

您可以批量导出它,分区也会有所帮助,但是还有更多解决方案。您可以参考此HortonWorks链接https://community.hortonworks.com/articles/70258/sqoop-performance-tuning.html,以找到更多性能调整方法。