应用错误收集

我可以直接考虑类似于源（Teradata）表中存在的分区列的Hive分区列吗？

时间：2016-08-05 11:39:54

标签： hadoop hive partitioning

我可以直接考虑类似于源（Teradata）表中存在的分区列的Hive分区列吗？或者我是否考虑过任何其他参数来决定Hive分区列？请帮忙。

2 个答案:

答案 0 :(得分：1)

这不是最佳做法。如果以这种方式创建数据，那么尝试直接访问HDFS数据的人将无法在每个分区中找到“分区列”。例如，说Teradata表由date列分区，那么如果hive表也被date分区，那么HDFS分区说2016-08-06将没有日期字段。因此，通过虚拟列表示最终用户分区很容易说date_d，它与日期列完全相同。

答案 1 :(得分：0)

抽象地说，Teradata和Hive中的分区是相似的。开始与你一起可以使用与你的源相同的列分区表。

如果每个分区的数据大小都很大，那么请考虑一下进一步划分，以提高性能。多层次分区主要取决于您应用的过滤器数量关于你的疑问。