绕过Spark(Scala)中每个文件的第一行

时间:2015-11-06 07:54:57

标签: scala amazon-s3 apache-spark

我正在Spark中处理包含csv.gz文件的S3文件夹。每个csv.gz文件都有一个包含列名的标题。

我将包含的数据加载到Spark的方式是引用路径/文件夹,如下所示:

val rdd = sc.textFile("s3://.../my-s3-path")

如何跳过每个文件中的标题,以便我只能处理这些值?

由于

1 个答案:

答案 0 :(得分:7)

您可以执行以下操作:

names(iris)<-sub(".", "_", fixed = T,names(iris))

因为每个输入文件都是gzip压缩的,所以它将在一个单独的分区下加载。如果我们映射所有分区并删除第一行,我们将从每个文件中删除第一行。