我可以直接考虑类似于源(Teradata)表中存在的分区列的Hive分区列吗?

时间:2016-08-05 11:39:54

标签: hadoop hive partitioning

我可以直接考虑类似于源(Teradata)表中存在的分区列的Hive分区列吗?或者我是否考虑过任何其他参数来决定Hive分区列?请帮忙。

2 个答案:

答案 0 :(得分:1)

这不是最佳做法。如果以这种方式创建数据,那么尝试直接访问HDFS数据的人将无法在每个分区中找到“分区列”。例如,说Teradata表由date列分区,那么如果hive表也被date分区,那么HDFS分区说2016-08-06将没有日期字段。因此,通过虚拟列表示最终用户分区很容易说date_d,它与日期列完全相同。

答案 1 :(得分:0)

  • 抽象地说,Teradata和Hive中的分区是相似的。开始 与你一起可以使用与你的源相同的列 分区表。

    如果每个分区的数据大小都很大,那么请考虑一下 进一步划分,以提高性能。多层次 分区主要取决于您应用的过滤器数量 关于你的疑问。