Spark collect()结果在独立模式下具有不正确的长度

时间:2016-04-12 09:22:25

标签: apache-spark pyspark

我以两种方式运行PySpark工作:

  1. 通过IPython的本地模式
  2. 独立模式通过spark-submit
  3. 有一个RDD,如:

    training_vector = training.map(lambda x : ... ).filter(lambda x : ...).map(lambda x : ...)

    然后我收集不同的栏目

    sparseData = training_vector.map(lambda x : x[1]).collect()

    targetData = training_vector.map(lambda x : x[2]).collect()

    在IPython本地模式下,两个打印值相同,看起来不错。

    print len(sparseData) print len(targetData)

    但是,在将相同的代码写入* .py文件并调用spark-submit --master spark://ip:7077 *.py之后,sparseData和targetData的长度略有不同。 (例如165655和165662)

    我已经尝试了几种不同的数据集,这些数据集以类似的情况结束。独立群集有两个工作者。有没有人有同样的问题?

    感谢。

0 个答案:

没有答案