我可以直接考虑类似于源(Teradata)表中存在的分区列的Hive分区列吗?或者我是否考虑过任何其他参数来决定Hive分区列?请帮忙。
答案 0 :(得分:1)
这不是最佳做法。如果以这种方式创建数据,那么尝试直接访问HDFS数据的人将无法在每个分区中找到“分区列”。例如,说Teradata表由date
列分区,那么如果hive表也被date
分区,那么HDFS分区说2016-08-06将没有日期字段。因此,通过虚拟列表示最终用户分区很容易说date_d
,它与日期列完全相同。
答案 1 :(得分:0)
抽象地说,Teradata和Hive中的分区是相似的。开始 与你一起可以使用与你的源相同的列 分区表。
如果每个分区的数据大小都很大,那么请考虑一下 进一步划分,以提高性能。多层次 分区主要取决于您应用的过滤器数量 关于你的疑问。