我在Spark中使用S3时遇到了一些描述问题的问题:
许多专门描述Parquet文件的问题:
以及一些涉及Spark - S3 - Parquet组合的其他问题的外部资源。这让我觉得S3与Spark或这个完整的组合可能不是最好的选择。
我在这里做点什么吗?任何人都可以提供权威的答案解释:
答案 0 :(得分:3)
很多问题都不是特定的,但是S3并不是一个文件系统,尽管API试图让它看起来像这样。许多名义上低成本的操作会带来多个HTTPS请求,从而导致延迟。
关于JIRAs
rename()
来提交工作是一个杀手。它在任务和工作结束时以及在检查点中使用。您生成的输出越多,完成所需的时间就越长。 s3guard work将包含一个零重命名提交者,但是需要花时间和时间来移动它。木地板?下推工作,但还有一些其他选项可以加快速度。我列出了他们和其他人: http://www.slideshare.net/steve_l/apache-spark-and-object-stores