应用错误收集

Sqoop导入性能改善

时间：2018-07-14 13:07:45

标签： hadoop hive teradata sqoop

每当我尝试将大量数据从Teradata导入到Hive时，它就会在过去的两个/三个映射器中被击中2个多小时。.我正在使用8个映射器和--split-by 有什么办法可以提高性能？由于我处于生产状态，因此我使用的映射器数量较少。.

1 个答案:

答案 0 :(得分：0)

随着映射器的增加，您也可以通过增加访存大小来提高性能。在Sqoop命令中使用以下语法：

--fetch-size=<n> <n>代表Sqoop一次必须获取的条目数。默认值为1000。您最多可以设置10000或更多。

注意：根据需要读取的数据量，增加fetch-size参数的值。根据可用的内存和带宽设置该值。

也请在Sqoop命令中增加堆大小，以避免出现堆异常或内存不足错误等内存问题。使用Sqoop命令中的以下属性增加内存

-Dmapreduce.map.memory.mb=8192 -Dmapreduce.map.java.opts=-Xmx7200m