Spark hivecontext.sql - 它如何创建分区数

时间:2016-08-03 12:40:17

标签: scala hadoop apache-spark hive apache-spark-sql

我执行以下操作:

val df = hiveContext.sql("select * from table")
df.show()

spark / hive如何选择运行的分区/任务量?在查看火花ui时,根据每张桌子,它似乎是随机的。不幸的是,当我的数据看起来有些偏差时,我会得到一个非常少量的任务,比如30,当我想要1000时。因此永远都是。

有没有办法明确定义哪个列是分区键,有没有办法强制它将数据均匀地分配给我的所有节点/执行器?

我正在运行spark 1.5.1

0 个答案:

没有答案