Hive中的这种“分区”操作是什么?我应该在这里做什么?

时间:2019-01-11 10:48:36

标签: hive rdbms partitioning

我有一个包含以下列的文件,要求我“根据提取日期进行分区”。 “提取日期”是文件中的一列。这是文件中的列:

  1. 提取日期
  2. 名称
  3. 位置
  4. 提取日期

现在,我已经将此文件包含在Unix目录中。

在这里我被要求做什么?

1 个答案:

答案 0 :(得分:0)

分区是Hive中的一项功能,旨在针对表中的一组记录进行定位。

首先,您需要根据“提取日期”列创建一个分区表,如下所示:

create table <table_name> 
(
name string,
location string
)
partitioned by (extract_date string)
stored as TEXTFILE;

这样做,将创建分区表。

现在,为了将文件中的数据加载到表中,再次有很多方法可以这样做,

  1. 使用静态分区机制加载

  2. 通过从其他表等中选择数据来使用动态分区进行加载。