我有4个不同的数据集,以4个CSV文件的形式存在,其中的公共字段是ID。我必须使用Join实现。为了实现更好的Map Reduce或HIVE这个概念,可以将Map Reduce和HIVE结合起来
非常感谢。
答案 0 :(得分:0)
与任何用例的Map Reduce
相比,大多数时候Hive
将提供更好的性能和控制。编写代码时必须更好地理解用例。
是的,可以合并Map Reduce
和Hive
。
答案 1 :(得分:0)
Hive将Hive查询转换为一系列MapReduce作业,以模拟查询的行为。虽然Hive非常有用,但将业务逻辑表示为Hive查询并不总是有效的。
如果你对性能延迟和加入大数据集,你可以去HIVE。
如果您的数据集很小,您仍然可以使用 Map Reduce Joins 或分布式缓存。
查看Map Reduce Joins文章。