标签: apache-spark hive apache-spark-sql metastore
我正在使用Apache spark-sql来查询数据库中的数据。我知道Spark默认情况下与hive共享相同的Metastore。我根据列id分区了输入数据,列id超过300k个不同的值。截至目前,该表有超过300k的分区,并且会定期增加。
是否因此出现问题?
答案 0 :(得分:1)
是的,那些许多分区条目将在名称节点上创建开销以跟踪每个分区条目。
如果您有一个表,那么对该列进行Hive索引是一个不错的选择。