我想利用Apache Spark的功能从我的S3存储桶中提取CSV内容。显然,使用内容的网址作为DataFrameReader
.csv()
方法中的参数不起作用(例如sparkSession.reader().csv(...)
)。看起来我可能不得不首先使用Java SDK访问存储并进行一些解析以将数据转换为数据集类型任何人有想法或任何我能阅读的参考?谢谢。
答案 0 :(得分:0)
您可以将此功能与Scala一起使用
def readCsv(url: String)(implicit spark: SparkSession): DataFrame = {
spark.read.option("header", "true").csv(url)
}
url应该是这样的s3:// your_backet / backet_with_csv /