如何在pyspark中使用filter()删除空的推文?

时间:2016-11-09 10:30:49

标签: mongodb filter pyspark tweets

如何在pyspark中使用filter()删除空推文?我做了以下

tweets = sc.textFile(.....)
tweets.count()

结果给了我13995.但是当我从mongodb导入数据时,它显示了11186

我似乎无法应用filter()命令删除空推文。请帮助。

1 个答案:

答案 0 :(得分:0)

如果您的数据是这样的

tweets = sc.parallelize(["title1", "", "title2", "title3", ""])

您可以使用len(x)作为过滤条件:

tweets.filter(lambda x: len(x) > 0).count()