若要加快配置单元过程,如何使用tez调整映射器和化简器数量

时间:2018-08-25 03:16:00

标签: hadoop hive apache-tez

我使用tez尝试了大数据(大约150GB)的处理(句子的单词标记),但是问题是花了很多时间(1周或更长时间),然后

我试图指定映射器的数量。 尽管我将mapred.map.tasks设置为2000, 但是我不能停止将mapper设置为150, 所以我不能做我想做的事。

我在oozie工作流程文件中指定地图值并使用tez。

如何指定映射器的数量?

最后,我想加快过程,不要使用tez是可以的。

此外,我想用减速器计算带标签的句子,这也花费了很多时间。

而且,我还想知道如何调整内存大小以使用每个映射器和化简器进程。

1 个答案:

答案 0 :(得分:1)

  

为了在TEZ是执行引擎时手动设置Hive查询中的映射器数量,可以使用配置tez.grouping.split-count ...

     

... set tez.grouping.split-count=4将创建4个映射器

https://community.pivotal.io/s/article/How-to-manually-set-the-number-of-mappers-in-a-TEZ-Hive-job


但是,总体而言,您甚至应该在开始tuning the Tez settings之前优化存储格式和Hive分区。不要在Hive中尝试处理数据STORED AS TEXT。首先将其转换为ORC或Parquet。

如果Tez不适合您,则可以随时尝试使用Spark。加标签的句子可能是您可以在某处找到的Spark MLlib工作流