应用错误收集

时间：2018-08-25 03:16:00

标签： hadoop hive apache-tez

我使用tez尝试了大数据（大约150GB）的处理（句子的单词标记），但是问题是花了很多时间（1周或更长时间），然后

我试图指定映射器的数量。尽管我将mapred.map.tasks设置为2000，但是我不能停止将mapper设置为150，所以我不能做我想做的事。

我在oozie工作流程文件中指定地图值并使用tez。

如何指定映射器的数量？

最后，我想加快过程，不要使用tez是可以的。

此外，我想用减速器计算带标签的句子，这也花费了很多时间。

而且，我还想知道如何调整内存大小以使用每个映射器和化简器进程。

答案 0 :(得分：1)

为了在TEZ是执行引擎时手动设置Hive查询中的映射器数量，可以使用配置tez.grouping.split-count ...

... set tez.grouping.split-count=4将创建4个映射器

但是，总体而言，您甚至应该在开始tuning the Tez settings之前优化存储格式和Hive分区。不要在Hive中尝试处理数据STORED AS TEXT。首先将其转换为ORC或Parquet。

如果Tez不适合您，则可以随时尝试使用Spark。加标签的句子可能是您可以在某处找到的Spark MLlib工作流