Question

我正在尝试将900个文件中的130GB数据从S3导出到Auroa / MySql RDS。我有10r4.4xlarge配置的10个节点集群。而且Aurora在

Aurora : db.r3.2xlarge 8 CPU, 61 GB RAM)

另外，当我运行Sqoop命令时，我可以看到917个映射器已经启动。但是导出仍然非常缓慢。加载所有数据需要两个多小时。

这是我要执行的Sqoop命令。

sqoop export \
--connect jdbc:mysql://a205067-pppp-ec2.abcd.us-east-1.rds.amazonaws.com/tprdb \
--username user \
--password Welcome12345 \
--table UniverseMaster \
--export-dir s3://205067-pppp-latest-new/output/processing/NextIteration/ \
--fields-terminated-by  '|' \
--num-mappers 1000 \
--direct \
-- --default-character-set=latin1

有什么方法可以改善Sqoop导出吗？我尝试使用每笔交易的记录，但结果仍然相同。

请提出建议。

Answer 1

您可以批量导出它，分区也会有所帮助，但是还有更多解决方案。您可以参考此HortonWorks链接https://community.hortonworks.com/articles/70258/sqoop-performance-tuning.html，以找到更多性能调整方法。

Sqoop导出到Aurora RDS的速度极慢

1 个答案: