PySpark API .count()
返回的值是否有任何限制?
对于前者,让C
为任何非常大的RDD。以下是pyspark代码片段:
t = C.count()
在t
的价值在什么情况下无效或未定义?
答案 0 :(得分:0)
来自code本身:
def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum
如您所见,计数返回Long
,因此t的最大大小将受Long
的定义限制,即64 bit signed value = -9223372036854775808 to 9223372036854775807 i.e. (-2^63 to 2^63-1, inclusive)
或者换句话说,计数最多可达2 ^ 64 = 18,446,744,073,709,551,616。