Apache Spark中`count()`返回的值是否有任何限制

时间:2017-04-16 20:22:48

标签: apache-spark pyspark

PySpark API .count()返回的值是否有任何限制?

对于前者,让C为任何非常大的RDD。以下是pyspark代码片段:

t = C.count()

t的价值在什么情况下无效或未定义?

1 个答案:

答案 0 :(得分:0)

来自code本身:

def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum

如您所见,计数返回Long,因此t的最大大小将受Long的定义限制,即64 bit signed value = -9223372036854775808 to 9223372036854775807 i.e. (-2^63 to 2^63-1, inclusive)或者换句话说,计数最多可达2 ^ 64 = 18,446,744,073,709,551,616。