我有两个配置单元
select * from tab1 limit 3;
这会快速返回3行,而不会启动任何地图缩减作业;
如果我要求将输出写入本地目录
,现在是相同的Query`INSERT OVERWRITE LOCAL DIRECTORY "/tmp/query1/" select * from tab1 limit 3;
此查询启动了一个map reduce工作,它扫描表中的所有文件,然后返回3行,所讨论的表格很大,因此扫描整个文件需要很长时间。
为什么两个查询的执行风格都有差异?
答案 0 :(得分:0)
一个简单的解释是:
当您在Hive中执行简单的select * from tab1 limit 3
查询时,它会从HDFS访问原始数据文件,并将输出呈现为基于HDFS中存储的文件的视图dfs -cat 'filepath'
。在这种情况下,不会触发Map Reduce作业,因此可以更快地完成作业。如果您将查询修改为甚至拉上select col1 from tab1 limit 3
之类的列,则会触发Map Reduce作业并扫描零件文件以平行拉出结果,从而消耗一些累计CPU时间。
当您点击INSERT OVERWRITE LOCAL DIRECTORY "/tmp/query1/" select * from tab1 limit 3;
为了详细了解Hive如何将查询转换为Map Reduce Jobs,您可以在EXPLAIN
关键字之前使用SELECT
关键字。这应该让你更清楚。