如何将HDFS 2表(其中1较小的表)联接到集群中节点的RAM中?

时间:2019-05-23 11:20:58

标签: hive hdfs hiveql

我在HDFS / Hive中有以下表格:

  • 一张桌子,例如D,它很小,足以存储在集群中单个计算节点的RAM中
  • 另一张桌子,例如E,比D大得多(E超出了群集节点的平均RAM)

基于上述情况,由于我是HDFS的新手,因此我有以下问题:

  1. 在HDFS / Hive中拥有上面的表格实际上有什么影响?
  2. 假设查询返回D.value和E.value,如何在Hive中编写高效的查询来优化D和E之间的连接(D.key = E.key上的INNER JOIN)?

谢谢。

0 个答案:

没有答案