我正在使用PySpark进行一些数据处理。
我的输入文件和文件夹格式如下:
Folder1/stage/file1
Folder1/stage/file2
每个文件的第一行作为标题记录,第二行作为空行。 我想删除前两行。如果我使用以下命令在文件夹中只有一个文件,我就能实现这一点。
linesRCP = sc.textFile("Folder1/stage/")
noHeaderRDD = linesRCP.zipWithIndex().filter(lambda (row,index): index > 1).keys()
但我的用例是文件夹中有多个文件。如何使用pyspark从每个文件中删除前两行(页眉+空白行)。
我尝试过的一件事就是首先过滤掉所有成功的空白行,但我仍然没有找到从每个文件中删除标题行的方法。
# This removes blank lines from all the files
rddBlank = linesRCP.filter(lambda x: x != '')
任何帮助将不胜感激。
提前致谢!