Question

我对Apache Spark和Python相对较新，并且想知道如何获得RDD的大小。我的RDD看起来像这样：

[[‘ID: 6993.1066',
  'Time: 15:53:43',
  'Lab: West',
  'Lab-Tech: Nancy McNabb, ',
  '\tBob Jones, Harry Lim, ',
  '\tSue Smith, Will Smith, ',
  '\tTerry Smith, Nandini Chandra, ',
  ]]

pyspark中是否有方法或函数可以给出RDD中有多少元组的大小？上面的那个有7个。

Scala有类似：myRDD.length。

Answer 1

对于RDD个别元素的大小，这似乎是

的方式

>>> rdd = sc.parallelize([(1,2,'the'),(5,2,5),(1,1,'apple')])
>>> rdd.map(lambda x: len(x)).collect()
[3, 3, 3]

RDD中的总元素数

>>> rdd.count()
3

如何在Pyspark中获得RDD的大小？

1 个答案: