我正在尝试从具有130 GB文本文件的S3导出到RDS Aurora中。
我的EMR的群集大小为10 r3.4xlarge 我已经在RDS中创建了130列表格,并使用以下命令将记录导出到RDS中
sqoop export \
--direct \
--connect jdbc:mysql://a205067-pcfp-rds-PPPP.ABCD.us-east-1.rds.amazonaws.com/tprdb \
--username tpruser \
--password Welcome12345 \
--table DnB_WB_UniverseMaster \
--export-dir s3://12345-pcfp-latest-new/output/processing/NextIteration/ \
-num-mappers 200 \
--fields-terminated-by '|' \
--batch \
--input-lines-terminated-by '\n' \
-- --default-character-set=latin1
当文件较小时,我可以将记录加载到RDS中,但是当我尝试加载完整目录时,它在完成30%的映射任务后失败。
这是我的集装箱日志。
2018-10-26 09:51:50,733警告[主要] org.apache.hadoop.mapred.YarnChild:正在运行的子级异常: java.io.IOException:mysqlimport在错误代码143处终止 org.apache.sqoop.mapreduce.MySQLExportMapper.closeExportHandles(MySQLExportMapper.java:313) 在 org.apache.sqoop.mapreduce.MySQLExportMapper.writeRecord(MySQLExportMapper.java:384) 在 org.apache.sqoop.mapreduce.MySQLTextExportMapper.map(MySQLTextExportMapper.java:56) 在 org.apache.sqoop.mapreduce.MySQLTextExportMapper.map(MySQLTextExportMapper.java:31) 在 org.apache.sqoop.mapreduce.MySQLExportMapper.run(MySQLExportMapper.java:245) 在org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:796) 在org.apache.hadoop.mapred.MapTask.run(MapTask.java:342)处 org.apache.hadoop.mapred.YarnChild $ 2.run(YarnChild.java:175)在 java.security.AccessController.doPrivileged(本机方法),位于 javax.security.auth.Subject.doAs(Subject.java:422)在 org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1840) 在org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:169)
如何解决此问题,请提出建议