pyspark从文件夹中的多个文件中删除标头

时间:2015-11-15 02:44:09

标签: python apache-spark pyspark

我正在使用PySpark进行一些数据处理。

我的输入文件和文件夹格式如下:

Folder1/stage/file1
Folder1/stage/file2

每个文件的第一行作为标题记录,第二行作为空行。 我想删除前两行。如果我使用以下命令在文件夹中只有一个文件,我就能实现这一点。

linesRCP = sc.textFile("Folder1/stage/")
noHeaderRDD = linesRCP.zipWithIndex().filter(lambda (row,index): index > 1).keys()

但我的用例是文件夹中有多个文件。如何使用pyspark从每个文件中删除前两行(页眉+空白行)。

我尝试过的一件事就是首先过滤掉所有成功的空白行,但我仍然没有找到从每个文件中删除标题行的方法。

# This removes blank lines from all the files
rddBlank = linesRCP.filter(lambda x: x != '') 

任何帮助将不胜感激。

提前致谢!

0 个答案:

没有答案