Question

我正在Spark中处理包含csv.gz文件的S3文件夹。每个csv.gz文件都有一个包含列名的标题。

我将包含的数据加载到Spark的方式是引用路径/文件夹，如下所示：

val rdd = sc.textFile("s3://.../my-s3-path")

如何跳过每个文件中的标题，以便我只能处理这些值？

由于

Answer 1

您可以执行以下操作：

names(iris)<-sub(".", "_", fixed = T,names(iris))

因为每个输入文件都是gzip压缩的，所以它将在一个单独的分区下加载。如果我们映射所有分区并删除第一行，我们将从每个文件中删除第一行。