Question

我对spark和pyspark来说相对较新

final_plogfiles = plogfiles.filter(lambda x: len(x)>0)

我编写了这段代码来过滤掉RDD plog文件中的空行。它没有删除空行。

我也试过

plogfiles.filter(lambda x: len(x.split())>0)

但如果我使用plogfiles.filter(lambda x: x.split())，那么所有行中的尾随和前导空格都会被修剪

我只想过滤掉空行。我想知道我哪里出错了。

Answer 1

plogfiles是RDD吗？以下对我来说很好：

lines = sc.textFile(input_file)
non_empty_lines = lines.filter(lambda x: len(x)>0 )