使用S3时,支持Parquet作为输入/输出格式

时间:2017-01-14 14:53:05

标签: apache-spark amazon-s3 parquet

我在Spark中使用S3时遇到了一些描述问题的问题:

许多专门描述Parquet文件的问题:

以及一些涉及Spark - S3 - Parquet组合的其他问题的外部资源。这让我觉得S3与Spark或这个完整的组合可能不是最好的选择。

我在这里做点什么吗?任何人都可以提供权威的答案解释:

  • Parquet支持的当前状态,重点是S3。
  • Spark(SQL)可以充分利用Parquet功能,如分区修剪,谓词下推(包括深层嵌套模式)和Parquet元数据所有这些功能都可以按预期在S3(或兼容的存储解决方案)上运行。
  • 正在进行的开发并开设了JIRA门票。
  • 在将这三者结合使用时是否应该注意哪些配置选项?

1 个答案:

答案 0 :(得分:3)

很多问题都不是特定的,但是S3并不是一个文件系统,尽管API试图让它看起来像这样。许多名义上低成本的操作会带来多个HTTPS请求,从而导致延迟。

关于JIRAs

  • HADOOP-11694; S3A第二阶段 - 您将在Hadoop 2.8中获得的所有内容。其中大部分已经在HDP2.5中了,是的,它有很大的好处。
  • HADOOP-13204:要遵循的待办事项列表。
  • 关于spark(和hive),使用rename()来提交工作是一个杀手。它在任务和工作结束时以及在检查点中使用。您生成的输出越多,完成所需的时间就越长。 s3guard work将包含一个零重命名提交者,但是需要花时间和时间来移动它。

木地板?下推工作,但还有一些其他选项可以加快速度。我列出了他们和其他人: http://www.slideshare.net/steve_l/apache-spark-and-object-stores