将DataFrame转换为rdd时出现PySpark错误

时间:2018-04-01 10:49:50

标签: apache-spark pyspark

我在pyspark群集的emr shell中运行代码,遇到了我以前从未见过的错误...

此行有效:

spark.read.parquet(s3_input).take(99)

虽然这一行导致异常:

spark.read.parquet(s3_input).rdd.take(99)

使用

  

TypeError:' int'对象不可迭代

1 个答案:

答案 0 :(得分:0)

问题仍然存在于pyspark 2.3.0中,我已降级为pyspark 2.2.1。

这不是一个解决方案,但在pyspark维护者修复此问题之前的解决方法。