我正在尝试考虑最好的方法,但是,我无法想到一种方法,不包括将所有文件中的标头读入数组,然后从这些标头中过滤RDD。
有更简单的方法吗?
注意:我正在读取S3存储桶中的所有csv文件,并且所有这些文件都有不同的标题。
答案 0 :(得分:5)
一种选择是使用SparkSQL,它可以加载CSV并忽略标题。看一看: https://github.com/databricks/spark-csv
header:当设置为true时,第一行文件将用于命名列,不会包含在数据中。所有类型都将被假定为字符串。默认值为false。