我对spark和pyspark来说相对较新
final_plogfiles = plogfiles.filter(lambda x: len(x)>0)
我编写了这段代码来过滤掉RDD plog文件中的空行。它没有删除空行。
我也试过
plogfiles.filter(lambda x: len(x.split())>0)
但如果我使用plogfiles.filter(lambda x: x.split())
,那么所有行中的尾随和前导空格都会被修剪
我只想过滤掉空行。我想知道我哪里出错了。
答案 0 :(得分:1)
plogfiles是RDD吗? 以下对我来说很好:
lines = sc.textFile(input_file)
non_empty_lines = lines.filter(lambda x: len(x)>0 )