Sqoop导入性能改善

时间:2018-07-14 13:07:45

标签: hadoop hive teradata sqoop

每当我尝试将大量数据从Teradata导入到Hive时,它就会在过去的两个/三个映射器中被击中2个多小时。.我正在使用8个映射器和--split-by 有什么办法可以提高性能?由于我处于生产状态,因此我使用的映射器数量较少。.

1 个答案:

答案 0 :(得分:0)

随着映射器的增加,您也可以通过增加访存大小来提高性能。 在Sqoop命令中使用以下语法:

--fetch-size=<n> <n>代表Sqoop一次必须获取的条目数。默认值为1000。您最多可以设置10000或更多。

注意:根据需要读取的数据量,增加fetch-size参数的值。根据可用的内存和带宽设置该值。

也请在Sqoop命令中增加堆大小,以避免出现堆异常或内存不足错误等内存问题。使用Sqoop命令中的以下属性增加内存

-Dmapreduce.map.memory.mb=8192 -Dmapreduce.map.java.opts=-Xmx7200m