标签: scala hadoop apache-spark hive apache-spark-sql
我执行以下操作:
val df = hiveContext.sql("select * from table") df.show()
spark / hive如何选择运行的分区/任务量?在查看火花ui时,根据每张桌子,它似乎是随机的。不幸的是,当我的数据看起来有些偏差时,我会得到一个非常少量的任务,比如30,当我想要1000时。因此永远都是。
有没有办法明确定义哪个列是分区键,有没有办法强制它将数据均匀地分配给我的所有节点/执行器?
我正在运行spark 1.5.1。
1.5.1