如何在Pyspark中获得RDD的大小?

时间:2018-02-21 05:20:07

标签: apache-spark pyspark

我对Apache Spark和Python相对较新,并且想知道如何获得RDD的大小。我的RDD看起来像这样:

[[‘ID: 6993.1066',
  'Time: 15:53:43',
  'Lab: West',
  'Lab-Tech: Nancy McNabb, ',
  '\tBob Jones, Harry Lim, ',
  '\tSue Smith, Will Smith, ',
  '\tTerry Smith, Nandini Chandra, ',
  ]]

pyspark中是否有方法或函数可以给出RDD中有多少元组的大小?上面的那个有7个。

Scala有类似:myRDD.length。

1 个答案:

答案 0 :(得分:4)

对于RDD个别元素的大小,这似乎是

的方式
>>> rdd = sc.parallelize([(1,2,'the'),(5,2,5),(1,1,'apple')])
>>> rdd.map(lambda x: len(x)).collect()
[3, 3, 3]

RDD中的总元素数

>>> rdd.count()
3