标签: apache-spark pyspark rdd
我注意到如果我尝试使用以下方法检查来自RDD的一些记录:
myRDD.take(5)
我有时会得到不一致的结果。有时我得到5条记录,有时它返回空结果[]。
[]
我认为这可能是好的,因为每次它可能从不同节点获取5条记录,而某些节点碰巧没有数据。但我想确认这个猜测是否正确?
此外,如果是这种情况,人们如何使用take()方法保证获得一些非空结果?即使整个RDD都不是空的,也可能在没有任何数据的情况下继续击中节点。
take()