我一直看到Apache Spark安排了一系列阶段,涉及固定的200个任务。由于这会发生在许多不同的工作中,我猜这与某种Spark配置有某种关系。有什么建议可能是什么配置?
答案 0 :(得分:2)
200是shuffle期间使用的默认分区数,由import pandas as pd
project_titles = ["I'm Back. Raspberry Pi unique Case for your Analog Cameras",
'CitizenSpring - App to crowdsource & map safe drinking water',
'Shoka Bell: The Ultimate City Cycling Tool']
d = pd.DataFrame(project_titles)
writer = pd.ExcelWriter('data.xlsx')
d.to_excel(writer, 'my_data', index=False, header=False)
writer.save()
控制。可以使用spark.sql.shuffle.partitions
:
SQLContext.setConf
或sqlContext.setConf("spark.sql.shuffle.partitions", "42")
RuntimeConfig.set