如何编写地图缩减代码
因为hive ql需要很长时间。对于1 GB的数据,它需要将近10分钟。
内部如何组合和混合工作?
答案 0 :(得分:5)
1)您应该开始使用EXPLAIN或EXPLAIN EXTENDED命令,该命令显示Hive如何将查询转换为Mapreduce作业。
Hive主要为像
这样的操作启动MapReduce作业数据过滤,数据聚合(min,max,avg),Join / products和表的交集,排序,e.t.c。 您首先要学习如何在MapReduce中实现上述算法/模式。
2)我建议您阅读本书Join Algorithm using Map-Reduce,以便更好地了解如何使用MapR加入数据集。 Hive遵循相同的模式来连接表(数据集)。
3)组合,随机和排序阅读这本书" Oreilly Hadoop The Definitive Guide Tom White-第6章"