如何在pyspark中使用filter()
删除空推文?我做了以下
tweets = sc.textFile(.....)
tweets.count()
结果给了我13995.但是当我从mongodb导入数据时,它显示了11186
我似乎无法应用filter()
命令删除空推文。请帮助。
答案 0 :(得分:0)
如果您的数据是这样的
tweets = sc.parallelize(["title1", "", "title2", "title3", ""])
您可以使用len(x)
作为过滤条件:
tweets.filter(lambda x: len(x) > 0).count()