在hive中包含分区的外部表

时间:2017-06-08 11:00:27

标签: hadoop hive

我在HDFS中有一堆tsv文件,其目录结构遵循分区约定,其中event_dt是分区。

some_path/event_dt=2017-04-30
some_path/event_dt=2017-05-01

等等。

问题是event_dt也是其中一列。特别是第二个。但我无法指定,因为event_dt不能出现在表模式和PARTITIONED BY语句中。这触发了:

 Column repeated in partitioning columns

除了使用不同的名称之外,还有其他办法吗?毕竟,这是相同的信息。

1 个答案:

答案 0 :(得分:-1)

如果您不想重命名该列,请

3个选项。

  1. 如果您的event_dt是csv中的最后一列,则创建不包含此列的表。
  2. 在摄取过程中,将数据信息排除在外,将数据从一个地方转换为另一个地方,目标表由even_dt划分(不是最有效的方式)
  3. 在表格顶部创建一个视图,不包括其中一列,无论如何原始表格都需要重命名。