Question

我一直看到Apache Spark安排了一系列阶段，涉及固定的200个任务。由于这会发生在许多不同的工作中，我猜这与某种Spark配置有某种关系。有什么建议可能是什么配置？

Answer 1

200是shuffle期间使用的默认分区数，由import pandas as pd project_titles = ["I'm Back. Raspberry Pi unique Case for your Analog Cameras", 'CitizenSpring - App to crowdsource & map safe drinking water', 'Shoka Bell: The Ultimate City Cycling Tool'] d = pd.DataFrame(project_titles) writer = pd.ExcelWriter('data.xlsx') d.to_excel(writer, 'my_data', index=False, header=False) writer.save()控制。可以使用spark.sql.shuffle.partitions：

在运行时设置其值

SQLContext.setConf

或sqlContext.setConf("spark.sql.shuffle.partitions", "42")

RuntimeConfig.set

Spark SQL作业的Spark修复任务编号

1 个答案: