如何在Hive中为批处理数据创建分层分区

时间:2017-01-15 11:43:06

标签: hive schema

考虑2000年的数据。

test.csv

country_code,product_code,rpt_period
us,crd,2000
us,pcl,2000
us,mtg,2000
in,crd,2000
in,pcl,2000
in,mtg,2000

现在我将新生成的2001年记录附加到test.csv。在将新数据附加到test.csv之后,我的数据如下所示。

append.csv

country_code,product_code,rpt_period
us,crd,2000
us,pcl,2000
us,mtg,2000
in,crd,2000
in,pcl,2000
in,mtg,2000
us,crd,2001
us,pcl,2001
us,mtg,2001
in,crd,2001
in,pcl,2001
in,mtg,2001

蜂巢中可能出现以下情况?如果是,请回答问题。

  1. 如何使用此数据为分区表Foo创建架构?还有我     希望分区列为 country_code product_code。
  2. 例如,我想加载(从test.csv文件记录)到表Foo?使用hive LOAD DATA命令?
  3. 如何将append.csv(仅2001记录)加载到表Foo。这也需要使用配置单元LOAD DATA命令
  4. 来完成

    感谢。

1 个答案:

答案 0 :(得分:1)

是的,您提到的所有方案都可以通过Hive实现。

  1. 创建临时表并加载您拥有的所有数据,您可以创建分区表,其中包含您提到的2列。
  2. 对于2和3:只需加载命令即可。如果您打算加载到分区表中,则必须通过创建临时表并插入分区表。

    让我知道这是你想要更新你的问题。