pyspark:使用RDD的take()函数时结果不一致

时间:2016-10-04 17:13:06

标签: apache-spark pyspark rdd

我注意到如果我尝试使用以下方法检查来自RDD的一些记录:

myRDD.take(5)

我有时会得到不一致的结果。有时我得到5条记录,有时它返回空结果[]

我认为这可能是好的,因为每次它可能从不同节点获取5条记录,而某些节点碰巧没有数据。但我想确认这个猜测是否正确?

此外,如果是这种情况,人们如何使用take()方法保证获得一些非空结果?即使整个RDD都不是空的,也可能在没有任何数据的情况下继续击中节点。

0 个答案:

没有答案