如何在Spark(python)中获取长度不同的单词数?

时间:2017-12-05 19:48:16

标签: python apache-spark

我有以下代码导致带有元组的列表。

 words \
  .map(lambda word: (word.lower(), 1))\
  .reduceByKey(lambda a, b: a + b)\
  .filter(lambda(x,y): y >= 3)

元组列表如下所示:

[(u'pardon', 6),
 (u'four', 8),
 (u'sleep', 6),
 (u'lory', 7),
 (u'pardon', 6)]

如何扩展代码,以便按长度获取字数?它应如下所示:

[(6,2),
 (7,1),
 (8,1)]

1 个答案:

答案 0 :(得分:0)

_.tolower()替换为len(_)

word.map(lambda word: (len(word), 1))