msck修复表是否需要hadoop / map-reduce?

时间:2019-06-06 18:56:25

标签: hive bigdata partition

我希望运行Hive,而不必费心运行hadoop / map-reduce。

我希望用户仅将配置单元用于元数据,而将spark,presto等用于查询/执行。

我认为这通常可以正常工作,但是我担心一些管理命令。具体来说,我需要知道msck repair table的工作原理。

此命令是否需要map-reduce才能起作用,还是蜂巢在metastore / etc中处理它?<​​/ p>

1 个答案:

答案 0 :(得分:1)

不需要

Map Reduce二进制文件

  

msck修复表。

Map Reduce(MR)是并行进行大规模计算的概念。

如果您不使用Impala或其他执行引擎(例如Spark)进行处理,则Hive将使用Map Reduce。

请参见https://www.cloudera.com/documentation/enterprise/5-13-x/topics/cdh_ig_hive_troubleshooting.html#hive_msck_repair_table_best_practices

在任何情况下,使用HDFS等都意味着需要Hadoop安装,并且无论如何您都会获得所有MR好东西。

您当然可以在没有Hadoop的情况下运行Spark。也就是说,其某些功能依赖于Hadoop二进制文件-例如实木复合地板。

编辑-在接受时将其从注释中提取出来,因为它非常有用:

此链接的答案深入探讨了msck修复的工作原理,并明确表明map-reduce并非由其触发。

What does MSCK REPAIR TABLE do behind the scenes and why it's so slow?