SparkSession读取存储在AWS s3中的csv文件的方法是什么?

时间:2018-02-24 22:59:29

标签: java csv apache-spark dataframe amazon-s3

我想利用Apache Spark的功能从我的S3存储桶中提取CSV内容。显然,使用内容的网址作为DataFrameReader .csv()方法中的参数不起作用(例如sparkSession.reader().csv(...))。看起来我可能不得不首先使用Java SDK访问存储并进行一些解析以将数据转换为数据集类型任何人有想法或任何我能阅读的参考?谢谢。

1 个答案:

答案 0 :(得分:0)

您可以将此功能与Scala一起使用

def readCsv(url: String)(implicit spark: SparkSession): DataFrame = {
    spark.read.option("header", "true").csv(url)
  }

url应该是这样的s3:// your_backet / backet_with_csv /