我应该使用哪个版本的hadaw-aws

时间:2018-06-27 16:57:36

标签: apache-spark hadoop amazon-s3 amazon-emr

我正在EMR 5.14(hadoop 2.8.3)的Yarn上运行spark作业。

我是否可以使用高级版本的hadoop-aws(例如2.9或3.1)来受益于s3a协议的最新优化?

1 个答案:

答案 0 :(得分:2)

您需要坚持使用任何EMR。他们的s3://连接器是AWS开发的连接器,可能是您最安全的选择。

FWIW,自2.8.3起为输入性能的s3a。相对于更高版本没有太大变化,除了在3.1中,如果您将fs.s3a.experimental.fadvise保留为normal,则它会在第一次反向搜索时自动从优化顺序IO切换为随机IO(列数据)。如果您知道所有数据都以可搜索的压缩格式(即非gzip)存储为Parquet / ORC,则最好一开始就将该属性设置为random。也没有加快写入速度。您将获得与Hadoop 2.9+中的“ consistent EMR”等效的一致性层,以及在Hadoop 3.1中的高性能输出提交者。但是,您无法通过添加以后的JAR来尝试使用这些功能。它只会给你堆栈痕迹