Pyspark过滤掉RDD中的空行无效

时间:2016-10-29 08:20:57

标签: python lambda filter pyspark rdd

我对spark和pyspark来说相对较新

final_plogfiles = plogfiles.filter(lambda x: len(x)>0)

我编写了这段代码来过滤掉RDD plog文件中的空行。它没有删除空行。

我也试过

plogfiles.filter(lambda x: len(x.split())>0)

但如果我使用plogfiles.filter(lambda x: x.split()),那么所有行中的尾随和前导空格都会被修剪

我只想过滤掉空行。我想知道我哪里出错了。

1 个答案:

答案 0 :(得分:1)

plogfiles是RDD吗? 以下对我来说很好:

lines = sc.textFile(input_file)
non_empty_lines = lines.filter(lambda x: len(x)>0 )