hadoop aws版本兼容性

时间:2018-03-26 21:22:50

标签: apache-spark hadoop amazon-s3 hive

是否有任何关于aws java sdk,hadoop,hadoop-aws bundle,hive,spark之间哪些版本兼容的参考?

例如,我知道Spark与Hive 2.1.1

之上的hive版本不兼容

1 个答案:

答案 0 :(得分:8)

您无法从构建hadoop-aws的版本中获取AWS SDK的更高版本,并期望s3a连接器正常工作。永远。现在在S3A troubleshooting docs

中写得非常清楚

无论您遇到什么问题,更改AWS SDK版本都不会解决问题,只会更改您看到的堆栈跟踪。

考虑到AWS团队推出新SDK的速度,这似乎令人沮丧,但您必须了解(a)API经常在版本之间发生不兼容的变化(如您所见),以及(b)每一个发布引入/移动最终导致问题的错误。

以下是关于AWS SDK更新的内容的3.x时间表。

AWS SDK JAR的每次升级都会导致某个问题。有时编辑代码并重新编译,最常见的是:日志填满虚假警报消息,依赖性问题,线程怪癖等等。这些事情需要时间浮出水面。

你得到hadoop发布时所看到的不仅仅是它编译的aws-sdk JAR,你得到一个hadoop-aws JAR,其中包含解决方案和修复程序,用于解决已发布的任何问题以及已发现的问题在hadoop发布之前至少进行了4周的测试。

这就是为什么,不,除非您计划对s3a客户端代码(包括负载测试)进行完整的端到端重新测试,否则您不应该更改JAR。我们鼓励您这样做,hadoop项目总是欢迎对我们的预发行代码进行更多测试,并准备好使用Hadoop 3.1二进制文件。但是试图通过改变JAR来自己做?可悲的是,这是一次孤立的痛苦运动。