应用错误收集

如何从RDD中的所有文件中删除标题，其中RDD = sc.textFile（＆＃34; s3n：//bucket/*.csv"）？

时间：2015-04-02 18:36:13

标签： csv amazon-s3 header apache-spark rdd

我正在尝试考虑最好的方法，但是，我无法想到一种方法，不包括将所有文件中的标头读入数组，然后从这些标头中过滤RDD。

有更简单的方法吗？

注意：我正在读取S3存储桶中的所有csv文件，并且所有这些文件都有不同的标题。

1 个答案:

答案 0 :(得分：5)

一种选择是使用SparkSQL，它可以加载CSV并忽略标题。看一看： https://github.com/databricks/spark-csv

header：当设置为true时，第一行文件将用于命名列，不会包含在数据中。所有类型都将被假定为字符串。默认值为false。