标签: python pyspark
我需要计算以rdd。中的字母'A'开头的不同单词。
我知道要算出不同的词,但我不知道有条件的数字。
words= myRDD.distinct().count() print words
答案 0 :(得分:0)
您必须通过开始信件然后计数来进行过滤。如下所示:
myRDD.filter(lambda x: x.startswith('a'))
您也可以使用内置功能
LIST