Spark SQL作业的Spark修复任务编号

时间:2016-08-09 13:13:06

标签: apache-spark apache-spark-sql

我一直看到Apache Spark安排了一系列阶段,涉及固定的200个任务。由于这会发生在许多不同的工作中,我猜这与某种Spark配置有某种关系。有什么建议可能是什么配置?

1 个答案:

答案 0 :(得分:2)

200是shuffle期间使用的默认分区数,由import pandas as pd project_titles = ["I'm Back. Raspberry Pi unique Case for your Analog Cameras", 'CitizenSpring - App to crowdsource & map safe drinking water', 'Shoka Bell: The Ultimate City Cycling Tool'] d = pd.DataFrame(project_titles) writer = pd.ExcelWriter('data.xlsx') d.to_excel(writer, 'my_data', index=False, header=False) writer.save() 控制。可以使用spark.sql.shuffle.partitions

在运行时设置其值
SQLContext.setConf

sqlContext.setConf("spark.sql.shuffle.partitions", "42")

RuntimeConfig.set