从S3加载spark sql中的多个JSON文件。性能问题

时间:2016-02-02 16:13:43

标签: json scala amazon-s3 apache-spark-sql

我有一个包含多个json文件的amazon S3文件夹(100K +) 我想使用spark sql来转换数据,但是我遇到了性能问题。

如果我这样做

val myjonDF = sqlContext.jsonFile("s3:/myfolder/")

需要永远完成。 如果您知道更好的方法,请与我分享!

1 个答案:

答案 0 :(得分:0)

我还没有在S3中尝试过100K +文件,但你试过这个:

val myjonDF = sqlContext.jsonFile("s3a://myfolder/*")