在hive的bucketed表中逐步加载数据?

时间:2013-09-24 12:00:46

标签: hadoop hive sample bucket

我还在学习蜂巢。我已经提到了几本书来理解蜂巢中的桶的概念。我学到的是,如果我们强制执行分段,它将创建与桶数量完全相同的文件数。

在我的情况下,我将每天五次在分段表中逐步加载数据。 例如:如果我有16个桶的表,那么每次加载它将根据散列/样本创建16个文件。总共5次运行,将创建80个文件。

My Question is , if i have table with 16 buckets defined on it with 80 files 
in HDFS, will it going to give bucketing benefits ?

1 个答案:

答案 0 :(得分:1)

为每个增量加载创建不同的表吗?

您使用的是哪个Hadoop发行版?

我正在使用相同的策略,每次增量加载都会生成(并覆盖)我定义的相同数量的存储桶。

当我们有权限时,问题有重复的文件,因为hive表是用hive用户创建的,而填充是用另一个(hdfs)进行的。

在/ user / hive / warehouse目录中查看表目录的所有者/权限,然后在子目录中查看相同的(所有者/权限)