具有许多where子句的hive性能

时间:2013-07-12 06:39:14

标签: hive hiveql

我有一个配置单元查询

  

从tbl中选择*,其中月(dt)='06'和年(dt)='2011'

我想知道如果我同时为一个月和一个月加入俱乐部并为此添加新的udf是否会有任何好处,

  

从tbl中选择*,其中yearMonth(dt)='201106'

我是Hive的新手,因此对我是否需要使用新UDF的任何想法都非常受欢迎。

hive是否按顺序执行结果,第一次使用2011过滤,在结果过滤器中使用06?

1 个答案:

答案 0 :(得分:0)

映射器应该一步对数据执行两个过滤器 您可以随时使用explain声明进行检查 如果您通常按年和月过滤,则应考虑在这些列上对表进行分区。这样,映射器将只读取相关的分区,而不是整个表。