应用错误收集

我以两种方式运行PySpark工作：

有一个RDD，如：

training_vector = training.map(lambda x : ... ).filter(lambda x : ...).map(lambda x : ...)

然后我收集不同的栏目

sparseData = training_vector.map(lambda x : x[1]).collect()

targetData = training_vector.map(lambda x : x[2]).collect()

在IPython本地模式下，两个打印值相同，看起来不错。

print len(sparseData) print len(targetData)

但是，在将相同的代码写入* .py文件并调用spark-submit --master spark://ip:7077 *.py之后，sparseData和targetData的长度略有不同。（例如165655和165662）

我已经尝试了几种不同的数据集，这些数据集以类似的情况结束。独立群集有两个工作者。有没有人有同样的问题？

感谢。