应用错误收集

我已经使用Python 2.7，PySpark，Spark 2.2完成了一个脚本。计算一些值后的算法将使用spark-cassandra连接器保存在Cassandra数据库中。该算法在独立运行中运行良好。

但是我应该在Spark 2.0.2或Spark 2.1上运行它。我的问题是Spark 2.1和Spark 2.0.2上的一些收集操作（也是Dataframe.show（））被锁定。我调查并且似乎在数据帧加入操作之后执行它阻止。你对我有什么建议吗？（调整，Spark Ui检查等）

 condition = [df_regressionLine['location_number'] == seasonalRatio['location_number'],
             df_regressionLine['location_type'] == seasonalRatio['location_type'],
             df_regressionLine['pag_code'] == seasonalRatio['pag_code'],
             df_regressionLine['PERIOD'] == seasonalRatio['period']]

freDataFrame = df_regressionLine.join(seasonalRatio, condition)

PySpark Python脚本仅适用于Spark 2.2

0 个答案: