我已经使用Python 2.7,PySpark,Spark 2.2完成了一个脚本。计算一些值后的算法将使用spark-cassandra连接器保存在Cassandra数据库中。该算法在独立运行中运行良好。
但是我应该在Spark 2.0.2或Spark 2.1上运行它。我的问题是Spark 2.1和Spark 2.0.2上的一些收集操作(也是Dataframe.show())被锁定。我调查并且似乎在数据帧加入操作之后执行它阻止。你对我有什么建议吗? (调整,Spark Ui检查等)
condition = [df_regressionLine['location_number'] == seasonalRatio['location_number'],
df_regressionLine['location_type'] == seasonalRatio['location_type'],
df_regressionLine['pag_code'] == seasonalRatio['pag_code'],
df_regressionLine['PERIOD'] == seasonalRatio['period']]
freDataFrame = df_regressionLine.join(seasonalRatio, condition)