我在具有16GB Ram和4核心CPU的本地计算机上运行PySpark。我还使用Jupyter笔记本来编写和运行所有代码。
我的spark上下文配置如下:
>sc = pyspark.SparkContext('local[*]',appName="demo")
我主要从事Spark DataFrames的工作,从一个月以来一直从事任务,我的所有代码始终使用所有4个内核,并且代码运行速度更快,但是现在当我向其中添加新代码时我之前的代码,在执行这些代码行以及之后的任何代码时,都停止使用我的所有内核。
我添加了这个循环:
columnsToJoin = ["PitchingStrikeoutsPerNineInnings","PitchingEarnedRuns","PitchingWeightedOnBasePercentage","WalksHitsPerInningsPitched","PitchingCompleteGames","PitchingNoHitters","InningsPitchedDecimal","PitchingBattingAverageAgainst","PitchingShutOuts"]
for clms in columnsToJoin:
temp = pitcherInfo.groupBy("PitcherID","Year").agg(F.mean(clms))
temp=temp.select("PitcherID","Year",col("avg("+clms+")").alias(clms+"Avg"))
pitcherInfo=pitcherInfo.join(temp,[pitcherInfo.PitcherID==temp.PitcherID,pitcherInfo.Year==temp.Year]).drop(temp.PitcherID).drop(temp.Year)
print("Done",clms)
我认为这是有可能的,因为我使用的是纯python循环,并尝试了没有循环的相同操作,但仍然执行相同操作。
这段代码中的所有内容都利用了我的所有内核,但是一旦执行了该循环,它就开始使用单个内核,然后再也没有回到使用所有内核的状态。
有人遇到过类似的问题吗?我该怎么做才能使spark充分利用所有内核?