当我们选择* table_name时,运行了多少个映射器和缩减器,其中id = 10;在蜂巢?它是基于输入拆分还是文件大小?在这种情况下如何确定映射器和缩减器的数量? 有什么建议吗?
答案 0 :(得分:2)
对于输入表的每个输入分割,将调度一个映射器,其中输入分割的默认大小为块大小。
您可以通过修改mapreduce.input.fileinputformat.split.maxsize
和mapreduce.input.fileinputformat.split.minsize
属性来更改地图制作者的数量。
说到Hive中的reducer数量,默认情况下,它是使用hive.exec.reducers.bytes.per.reducer
属性计算的,其默认值为1GB。
您可以通过修改上述属性来配置Reducer的数量。您仍然可以使用mapred.reduce.tasks
属性为作业设置常量减速器数。
希望这有帮助。