我在pyspark
群集的emr
shell中运行代码,遇到了我以前从未见过的错误...
此行有效:
spark.read.parquet(s3_input).take(99)
虽然这一行导致异常:
spark.read.parquet(s3_input).rdd.take(99)
使用
TypeError:' int'对象不可迭代
答案 0 :(得分:0)
问题仍然存在于pyspark 2.3.0中,我已降级为pyspark 2.2.1。
这不是一个解决方案,但在pyspark维护者修复此问题之前的解决方法。