蜂巢中重复记录的可能性

时间:2018-04-01 05:56:33

标签: hive

我有像date_created这样的表结构,在hive中创建的值,分区列为date_created。截至目前表中的数据是

Date_created , value

Jan,            a

Jan,            b

Jan,            c

Jan,            a

如果此数据以INSERT OVERWRITE TABLE PARTITION (date_created)格式加载到hive表中,该表是否包含两个“Jan,a”记录?

2 个答案:

答案 0 :(得分:0)

假设您执行以下语句四次,

Insert Overwrite partition (date_created='Jan') select ....;

Load data inpath '/hdfs/path/file' overwrite into table <table_name> partition(date_created='Jan');

你将把最后一组值加载到分区中,即在第一次加载时加载到分区中的值/文件将被第二次加载覆盖,第三次加载将擦除第二次加载等等......

因此,根据您的值,分区(date_created = Jan)将只有一条带有值的记录&#39; a&#39;

答案 1 :(得分:0)

是的,你的表将有两个(Jan,a)记录,因为你的文件有两个(Jan,a)记录,前提是你的查询没有任何过滤或不同的子句。