PySpark中的.cartesian()

时间:2016-05-13 19:16:22

标签: hadoop apache-spark pyspark

我创建了rdd = sc.parallelize(range(200))。然后我设置rdd2 = rdd.cartesian(rdd)。我发现按预期rdd2.count()为40,000。但是,当我设置rdd3 = rdd2.cartesian(rdd)时,rdd3.count()小于20,000。为什么会这样?

1 个答案:

答案 0 :(得分:1)

这是SPARK-16589跟踪的错误。