应用错误收集

msck修复表是否需要hadoop / map-reduce？

时间：2019-06-06 18:56:25

标签： hive bigdata partition

我希望运行Hive，而不必费心运行hadoop / map-reduce。

我希望用户仅将配置单元用于元数据，而将spark，presto等用于查询/执行。

我认为这通常可以正常工作，但是我担心一些管理命令。具体来说，我需要知道msck repair table的工作原理。

此命令是否需要map-reduce才能起作用，还是蜂巢在metastore / etc中处理它？</ p>

1 个答案:

答案 0 :(得分：1)

不需要

Map Reduce二进制文件

msck修复表。

Map Reduce（MR）是并行进行大规模计算的概念。

如果您不使用Impala或其他执行引擎（例如Spark）进行处理，则Hive将使用Map Reduce。

请参见https://www.cloudera.com/documentation/enterprise/5-13-x/topics/cdh_ig_hive_troubleshooting.html#hive_msck_repair_table_best_practices。

在任何情况下，使用HDFS等都意味着需要Hadoop安装，并且无论如何您都会获得所有MR好东西。

您当然可以在没有Hadoop的情况下运行Spark。也就是说，其某些功能依赖于Hadoop二进制文件-例如实木复合地板。

编辑-在接受时将其从注释中提取出来，因为它非常有用：

此链接的答案深入探讨了msck修复的工作原理，并明确表明map-reduce并非由其触发。

What does MSCK REPAIR TABLE do behind the scenes and why it's so slow?