我正在Spark中处理包含csv.gz文件的S3文件夹。每个csv.gz文件都有一个包含列名的标题。
我将包含的数据加载到Spark的方式是引用路径/文件夹,如下所示:
val rdd = sc.textFile("s3://.../my-s3-path")
如何跳过每个文件中的标题,以便我只能处理这些值?
由于
答案 0 :(得分:7)
您可以执行以下操作:
names(iris)<-sub(".", "_", fixed = T,names(iris))
因为每个输入文件都是gzip压缩的,所以它将在一个单独的分区下加载。如果我们映射所有分区并删除第一行,我们将从每个文件中删除第一行。