如您所知,我刚开始使用Pyspark Python,我的RDD设置如下: (ID,名字,姓氏,地址) (ID,名字,姓氏,地址) (ID,名字,姓氏,地址) (ID,名字,姓氏,地址) (ID,名字,姓氏,地址) 无论如何,我可以算出我在RDD中存储的这些记录有多少,例如算出RDD中的所有ID。这样输出将告诉我我有5个。 我曾尝试使用RDD.count(),但这似乎只是返回我的数据集中总共有多少个项目。
答案 0 :(得分:0)
如果您具有RDD元组的RDD,例如RDD [(ID,名,姓,地址)],则可以执行以下操作来进行不同类型的计数。
计算RDD中的元素/行总数。
rdd.count()
从您上面的RDD中计算不同的ID。选择ID元素,然后在其上方做一个独特的显示。
rdd.map(lambda x:x [0])。distinct()。count()
希望它有助于进行不同种类的计数。
如果您需要进一步的帮助,请告诉我。
此致
Neeraj