应用错误收集

Spark hivecontext.sql - 它如何创建分区数

时间：2016-08-03 12:40:17

标签： scala hadoop apache-spark hive apache-spark-sql

我执行以下操作：

val df = hiveContext.sql("select * from table")
df.show()

spark / hive如何选择运行的分区/任务量？在查看火花ui时，根据每张桌子，它似乎是随机的。不幸的是，当我的数据看起来有些偏差时，我会得到一个非常少量的任务，比如30，当我想要1000时。因此永远都是。

有没有办法明确定义哪个列是分区键，有没有办法强制它将数据均匀地分配给我的所有节点/执行器？

我正在运行spark 1.5.1。

0 个答案:

没有答案