我使用tez尝试了大数据(大约150GB)的处理(句子的单词标记),但是问题是花了很多时间(1周或更长时间),然后
我试图指定映射器的数量。 尽管我将mapred.map.tasks设置为2000, 但是我不能停止将mapper设置为150, 所以我不能做我想做的事。
我在oozie工作流程文件中指定地图值并使用tez。
如何指定映射器的数量?
最后,我想加快过程,不要使用tez是可以的。
此外,我想用减速器计算带标签的句子,这也花费了很多时间。
而且,我还想知道如何调整内存大小以使用每个映射器和化简器进程。
答案 0 :(得分:1)
为了在TEZ是执行引擎时手动设置Hive查询中的映射器数量,可以使用配置
tez.grouping.split-count
......
set tez.grouping.split-count=4
将创建4个映射器
https://community.pivotal.io/s/article/How-to-manually-set-the-number-of-mappers-in-a-TEZ-Hive-job
但是,总体而言,您甚至应该在开始tuning the Tez settings之前优化存储格式和Hive分区。不要在Hive中尝试处理数据STORED AS TEXT
。首先将其转换为ORC或Parquet。
如果Tez不适合您,则可以随时尝试使用Spark。加标签的句子可能是您可以在某处找到的Spark MLlib工作流