我有一个导入作业到配置单元外部表(Hbase)。由于我的数据太大,我看到有500个映射器已打开并正在执行。但是我想控制需要同时执行的并发映射器的数量。
我的期望是。 让配置单元仍创建500个映射器。但是我希望一次只能执行100个映射器。
不确定如何控制并发映射器。
任何帮助都非常感谢。在此先感谢!
答案 0 :(得分:0)
我的期望是。让配置单元仍创建500个映射器。但是我希望一次只能执行100个映射器。
不确定这是什么意思。但是,如果要控制映射器的数量,一种方法是控制输入拆分,如下所示:
set mapreduce.input.fileinputformat.split.maxsize= <some number>;
set mapreduce.input.fileinputformat.split.minsize= <some number>;
设置输入的最大和最小大小将帮助您控制映射器。
您还可以尝试设置配置单元中的映射器数量:
SET mapreduce.job.maps=100
希望这会有所帮助:)