使用python计算rdd中的特定单词

时间:2017-04-21 19:54:33

标签: python pyspark

我需要计算以rdd。中的字母'A'开头的不同单词。

我知道要算出不同的词,但我不知道有条件的数字。

words= myRDD.distinct().count()
print words

1 个答案:

答案 0 :(得分:0)

您必须通过开始信件然后计数来进行过滤。如下所示:

myRDD.filter(lambda x: x.startswith('a'))

您也可以使用内置功能

LIST