如何为hive查询编写mapreduce代码

时间:2014-05-26 07:40:53

标签: hadoop mapreduce hive

如何编写地图缩减代码

  1. select * from tables
  2. 用于左外连接
  3. 因为hive ql需要很长时间。对于1 GB的数据,它需要将近10分钟。

    内部如何组合和混合工作?

1 个答案:

答案 0 :(得分:5)

1)您应该开始使用EXPLAIN或EXPLAIN EXTENDED命令,该命令显示Hive如何将查询转换为Mapreduce作业。

Hive主要为像

这样的操作启动MapReduce作业

数据过滤,数据聚合(min,max,avg),Join / products和表的交集,排序,e.t.c。 您首先要学习如何在MapReduce中实现上述算法/模式。

2)我建议您阅读本书Join Algorithm using Map-Reduce,以便更好地了解如何使用MapR加入数据集。 Hive遵循相同的模式来连接表(数据集)。

3)组合,随机和排序阅读这本书" Oreilly Hadoop The Definitive Guide Tom White-第6章"