Question

我还在学习蜂巢。我已经提到了几本书来理解蜂巢中的桶的概念。我学到的是，如果我们强制执行分段，它将创建与桶数量完全相同的文件数。

在我的情况下，我将每天五次在分段表中逐步加载数据。例如：如果我有16个桶的表，那么每次加载它将根据散列/样本创建16个文件。总共5次运行，将创建80个文件。

My Question is , if i have table with 16 buckets defined on it with 80 files 
in HDFS, will it going to give bucketing benefits ?

Answer 1

为每个增量加载创建不同的表吗？

您使用的是哪个Hadoop发行版？

我正在使用相同的策略，每次增量加载都会生成（并覆盖）我定义的相同数量的存储桶。

当我们有权限时，问题有重复的文件，因为hive表是用hive用户创建的，而填充是用另一个（hdfs）进行的。

在/ user / hive / warehouse目录中查看表目录的所有者/权限，然后在子目录中查看相同的（所有者/权限）