任何人都可以帮助我理解以下几点。
我创建了一个不是分区表的HIVE表,但我在10节点集群中工作,所以在这种情况下,该表的数据(表是一个大表)将分布在不同的数据中节点???或者只在一个节点中存在?
如果它分布在不同的数据节点上,那么我们怎么只能看到\ hive \ warehouse文件夹下的一个文件?
另外请不要理解如何为分区表分配此存储空间。
答案 0 :(得分:0)
表格的数据和表格的元数据是不同的。
该表的数据(基本上只是HDFS中的文件)将按照HDFS规则进行存储(基于您的配置,文件将被分成n个块并分布式存储在数据节点上)。 在您的情况下,一个配置单元表(一个文件或一些文件)的数据将分布式存储在集群中的所有10个节点中。 此外,此分发在块级别完成,在用户级别不可见。 您可以轻松检查在Web UI中为文件创建的块数。
分区表就像在HDFS中的表目录中添加另一个目录一样。所以它遵循相同的规则。