我正在尝试将900个文件中的130GB数据从S3导出到Auroa / MySql RDS。
我有10r4.4xlarge
配置的10个节点集群。
而且Aurora在
Aurora : db.r3.2xlarge 8 CPU, 61 GB RAM)
另外,当我运行Sqoop命令时,我可以看到917个映射器已经启动。 但是导出仍然非常缓慢。加载所有数据需要两个多小时。
这是我要执行的Sqoop命令。
sqoop export \
--connect jdbc:mysql://a205067-pppp-ec2.abcd.us-east-1.rds.amazonaws.com/tprdb \
--username user \
--password Welcome12345 \
--table UniverseMaster \
--export-dir s3://205067-pppp-latest-new/output/processing/NextIteration/ \
--fields-terminated-by '|' \
--num-mappers 1000 \
--direct \
-- --default-character-set=latin1
有什么方法可以改善Sqoop导出吗? 我尝试使用每笔交易的记录,但结果仍然相同。
请提出建议。
答案 0 :(得分:0)
您可以批量导出它,分区也会有所帮助,但是还有更多解决方案。您可以参考此HortonWorks链接https://community.hortonworks.com/articles/70258/sqoop-performance-tuning.html,以找到更多性能调整方法。