hadoop - Hive Partitioned / bucketed table的实际结构是什么？

时间：2017-04-29 16:48:46

标签： hadoop hive hdfs

我无法在虚拟框中配置多数据节点集群

不要将复制因子视为1。

假设我有一个10GB的文件，并且列城市有2个不同的值，我有2个数据节点。

想要按城市划分数据此外，我将在每个分区的2个桶中存储邮政编码。我的问题是每个数据节点中是否存在每个分区，或者每个节点只有不同的分区。

我的理解是每个节点都将拥有所有分区，但在某些节点中，由于数据文件中的值不足，分区可能不存在。每个数据节点中的每个分区都将由邮政编码进行分区，并且某些存储桶可能没有值。

答案 0 :(得分：1)

使用目录实现分区目录包含文件。可能是一个，可能很多。

使用文件实现Bucketing 存储桶可能与一个文件或多个文件相关。

文件是从块构建的。可能是一个，可能很多。
块驻留在节点内。不同的块可能驻留在同一节点或不同节点上。

底线 -
没有任何东西可以将分区/存储桶绑定到特定节点。