我正在尝试使用Sqoop将数据从S3加载到RDS。 我在70个不同的文件中大约有35 GB的gzip文件。
这是我运行的命令
sqoop export
--connect jdbc:mysql://a205067-pppp-ec2rds.abcd.us-east-1.rds.amazonaws.com/tprdb
--username user
--password password
--table DnB_WB_UniverseMaster
--export-dir s3://pppp-sukesh/FullFiles/
--fields-terminated-by '|'
--num-mappers 500
--direct
--default-character-set=latin1
dunsnumber
是我的主键
问题在于导出速度非常慢,我看到的映射器数只有4个。
为了提高负载速度,我在这里可以做些什么优化处理。
我也有带有10 m4.large
的EMR集群
答案 0 :(得分:1)
尝试使用带有m
参数的破折号:-m 20
或--num-mappers 20
。