Hive Metastore中许多分区导致的错误

时间:2015-11-22 18:34:01

标签: apache-spark hive apache-spark-sql metastore

我正在使用Apache spark-sql来查询数据库中的数据。我知道Spark默认情况下与hive共享相同的Metastore。我根据列id分区了输入数据,列id超过300k个不同的值。截至目前,该表有超过300k的分区,并且会定期增加。

是否因此出现问题?

1 个答案:

答案 0 :(得分:1)

是的,那些许多分区条目将在名称节点上创建开销以跟踪每个分区条目。

如果您有一个表,那么对该列进行Hive索引是一个不错的选择。