我希望运行Hive,而不必费心运行hadoop / map-reduce。
我希望用户仅将配置单元用于元数据,而将spark,presto等用于查询/执行。
我认为这通常可以正常工作,但是我担心一些管理命令。具体来说,我需要知道msck repair table
的工作原理。
此命令是否需要map-reduce才能起作用,还是蜂巢在metastore / etc中处理它?</ p>
答案 0 :(得分:1)
Map Reduce二进制文件
msck修复表。
Map Reduce(MR)是并行进行大规模计算的概念。
如果您不使用Impala或其他执行引擎(例如Spark)进行处理,则Hive将使用Map Reduce。
在任何情况下,使用HDFS等都意味着需要Hadoop安装,并且无论如何您都会获得所有MR好东西。
您当然可以在没有Hadoop的情况下运行Spark。也就是说,其某些功能依赖于Hadoop二进制文件-例如实木复合地板。
编辑-在接受时将其从注释中提取出来,因为它非常有用:
此链接的答案深入探讨了msck修复的工作原理,并明确表明map-reduce并非由其触发。
What does MSCK REPAIR TABLE do behind the scenes and why it's so slow?