我正在使用Spark代码中的HiveContext运行hive查询。无论我运行哪个查询以及它有多少数据,它总是生成31个分区。谁知道原因?是否有预定义/可配置的设置?我基本上需要更多分区。
我使用此代码段执行配置单元查询:
var pairedRDD = hqlContext.sql(hql).rdd.map(...)
我正在使用Spark 1.3.1
谢谢, 尼丁
答案 0 :(得分:0)
RDD中的分区数与它所依赖的RDD中的分区数相同,但有一些例外: coalesce 转换允许创建比其分区更少的分区的RDD父RDD, union 转换使用其父项的分区数之和创建RDD, cartesian 使用其产品创建RDD。 增加分区数
此链接here很好地解释了如何定义分区数以及如何增加分区数。