Question

我有一个包含多个json文件的amazon S3文件夹（100K +）我想使用spark sql来转换数据，但是我遇到了性能问题。

如果我这样做

val myjonDF = sqlContext.jsonFile("s3:/myfolder/")

需要永远完成。如果您知道更好的方法，请与我分享！

Answer 1

我还没有在S3中尝试过100K +文件，但你试过这个：

val myjonDF = sqlContext.jsonFile("s3a://myfolder/*")