如何增加Sqoop作业中的映射器数量

时间:2018-10-17 10:00:55

标签: hadoop sqoop amazon-emr sqoop2

我正在尝试使用Sqoop将数据从S3加载到RDS。 我在70个不同的文件中大约有35 GB的gzip文件。

这是我运行的命令

sqoop export 
 --connect jdbc:mysql://a205067-pppp-ec2rds.abcd.us-east-1.rds.amazonaws.com/tprdb 
 --username user 
 --password password 
 --table DnB_WB_UniverseMaster 
 --export-dir s3://pppp-sukesh/FullFiles/ 
 --fields-terminated-by  '|' 
 --num-mappers 500 
 --direct 
 --default-character-set=latin1

dunsnumber是我的主键

问题在于导出速度非常慢,我看到的映射器数只有4个。

为了提高负载速度,我在这里可以做些什么优化处理。

我也有带有10 m4.large的EMR集群

1 个答案:

答案 0 :(得分:1)

尝试使用带有m参数的破折号:-m 20--num-mappers 20