标签: hadoop apache-spark pyspark
我创建了rdd = sc.parallelize(range(200))。然后我设置rdd2 = rdd.cartesian(rdd)。我发现按预期rdd2.count()为40,000。但是,当我设置rdd3 = rdd2.cartesian(rdd)时,rdd3.count()小于20,000。为什么会这样?
rdd = sc.parallelize(range(200))
rdd2 = rdd.cartesian(rdd)
rdd2.count()
rdd3 = rdd2.cartesian(rdd)
rdd3.count()
答案 0 :(得分:1)
这是SPARK-16589跟踪的错误。