我还在学习蜂巢。我已经提到了几本书来理解蜂巢中的桶的概念。我学到的是,如果我们强制执行分段,它将创建与桶数量完全相同的文件数。
在我的情况下,我将每天五次在分段表中逐步加载数据。 例如:如果我有16个桶的表,那么每次加载它将根据散列/样本创建16个文件。总共5次运行,将创建80个文件。
My Question is , if i have table with 16 buckets defined on it with 80 files
in HDFS, will it going to give bucketing benefits ?
答案 0 :(得分:1)
为每个增量加载创建不同的表吗?
您使用的是哪个Hadoop发行版?
我正在使用相同的策略,每次增量加载都会生成(并覆盖)我定义的相同数量的存储桶。
当我们有权限时,问题有重复的文件,因为hive表是用hive用户创建的,而填充是用另一个(hdfs)进行的。
在/ user / hive / warehouse目录中查看表目录的所有者/权限,然后在子目录中查看相同的(所有者/权限)