我有一个包含多个json文件的amazon S3文件夹(100K +) 我想使用spark sql来转换数据,但是我遇到了性能问题。
如果我这样做
val myjonDF = sqlContext.jsonFile("s3:/myfolder/")
需要永远完成。 如果您知道更好的方法,请与我分享!
答案 0 :(得分:0)
我还没有在S3中尝试过100K +文件,但你试过这个:
val myjonDF = sqlContext.jsonFile("s3a://myfolder/*")