PySpark Python脚本仅适用于Spark 2.2

时间:2018-01-20 09:05:10

标签: apache-spark pyspark apache-spark-sql spark-dataframe

我已经使用Python 2.7,PySpark,Spark 2.2完成了一个脚本。计算一些值后的算法将使用spark-cassandra连接器保存在Cassandra数据库中。该算法在独立运行中运行良好。

但是我应该在Spark 2.0.2或Spark 2.1上运行它。我的问题是Spark 2.1和Spark 2.0.2上的一些收集操作(也是Dataframe.show())被锁定。我调查并且似乎在数据帧加入操作之后执行它阻止。你对我有什么建议吗? (调整,Spark Ui检查等)

 condition = [df_regressionLine['location_number'] == seasonalRatio['location_number'],
             df_regressionLine['location_type'] == seasonalRatio['location_type'],
             df_regressionLine['pag_code'] == seasonalRatio['pag_code'],
             df_regressionLine['PERIOD'] == seasonalRatio['period']]

freDataFrame = df_regressionLine.join(seasonalRatio, condition)

0 个答案:

没有答案