应用错误收集

我在Spark中使用S3时遇到了一些描述问题的问题：

许多专门描述Parquet文件的问题：

以及一些涉及Spark - S3 - Parquet组合的其他问题的外部资源。这让我觉得S3与Spark或这个完整的组合可能不是最好的选择。

我在这里做点什么吗？任何人都可以提供权威的答案解释：

Parquet支持的当前状态，重点是S3。
Spark（SQL）可以充分利用Parquet功能，如分区修剪，谓词下推（包括深层嵌套模式）和Parquet元数据所有这些功能都可以按预期在S3（或兼容的存储解决方案）上运行。
正在进行的开发并开设了JIRA门票。
在将这三者结合使用时是否应该注意哪些配置选项？

很多问题都不是特定的，但是S3并不是一个文件系统，尽管API试图让它看起来像这样。许多名义上低成本的操作会带来多个HTTPS请求，从而导致延迟。

关于JIRAs

HADOOP-11694; S3A第二阶段 - 您将在Hadoop 2.8中获得的所有内容。其中大部分已经在HDP2.5中了，是的，它有很大的好处。
HADOOP-13204：要遵循的待办事项列表。
关于spark（和hive），使用rename()来提交工作是一个杀手。它在任务和工作结束时以及在检查点中使用。您生成的输出越多，完成所需的时间就越长。 s3guard work将包含一个零重命名提交者，但是需要花时间和时间来移动它。

木地板？下推工作，但还有一些其他选项可以加快速度。我列出了他们和其他人： http://www.slideshare.net/steve_l/apache-spark-and-object-stores