应用错误收集

Hive Metastore中许多分区导致的错误

时间：2015-11-22 18:34:01

标签： apache-spark hive apache-spark-sql metastore

我正在使用Apache spark-sql来查询数据库中的数据。我知道Spark默认情况下与hive共享相同的Metastore。我根据列id分区了输入数据，列id超过300k个不同的值。截至目前，该表有超过300k的分区，并且会定期增加。

是否因此出现问题？

1 个答案:

答案 0 :(得分：1)

是的，那些许多分区条目将在名称节点上创建开销以跟踪每个分区条目。

如果您有一个表，那么对该列进行Hive索引是一个不错的选择。