如何计算RDD中特定行中的项目数

时间:2018-11-25 13:55:56

标签: python scala pyspark

如您所知,我刚开始使用Pyspark Python,我的RDD设置如下: (ID,名字,姓氏,地址) (ID,名字,姓氏,地址) (ID,名字,姓氏,地址) (ID,名字,姓氏,地址) (ID,名字,姓氏,地址)  无论如何,我可以算出我在RDD中存储的这些记录有多少,例如算出RDD中的所有ID。这样输出将告诉我我有5个。 我曾尝试使用RDD.count(),但这似乎只是返回我的数据集中总共有多少个项目。

1 个答案:

答案 0 :(得分:0)

如果您具有RDD元组的RDD,例如RDD [(ID,名,姓,地址)],则可以执行以下操作来进行不同类型的计数。

  1. 计算RDD中的元素/行总数。

    rdd.count()

  2. 从您上面的RDD中计算不同的ID。选择ID元素,然后在其上方做一个独特的显示。

    rdd.map(lambda x:x [0])。distinct()。count()

希望它有助于进行不同种类的计数。

如果您需要进一步的帮助,请告诉我。

此致

Neeraj