我以两种方式运行PySpark工作:
有一个RDD,如:
training_vector = training.map(lambda x : ... ).filter(lambda x : ...).map(lambda x : ...)
然后我收集不同的栏目
sparseData = training_vector.map(lambda x : x[1]).collect()
targetData = training_vector.map(lambda x : x[2]).collect()
在IPython本地模式下,两个打印值相同,看起来不错。
print len(sparseData)
print len(targetData)
但是,在将相同的代码写入* .py文件并调用spark-submit --master spark://ip:7077 *.py
之后,sparseData和targetData的长度略有不同。 (例如165655和165662)
我已经尝试了几种不同的数据集,这些数据集以类似的情况结束。独立群集有两个工作者。有没有人有同样的问题?
感谢。