Amazon EMR中的Hadoop 2.4.0和Giraph 1.1.0?

时间:2015-04-06 22:12:26

标签: hadoop amazon-web-services amazon-emr giraph

我最近开始使用hadoop,我正在尝试将它用于giraph(因为我需要它来操作巨大的图形)。因此,为了构建giraph(1.1.0,最新的稳定版本),我选择了hadoop的2.4.0版本(根据此link,这是Amazon EMR支持的最新版本) 。我还在进行本地测试,我甚至没有接近AWS的完全部署,但我正在努力实现这一目标(在Amazon EMR中编程)。

但是,当我用Maven构建giraph时(我正避免使用YARN配置文件),我遇到了bug中检测到的问题(HADOOP-10547)。所以,我不知道哪个是最好的选择,我希望有人可以帮助我:

  • 选择2.2版本并尝试用它构建giraph(它是最先进的版本,2.4之前的版本,可用)。这个选项的缺点是,我刚刚开始,我想使用最新的hadoop可用版本。
  • 下载hadoop 2.4的源代码,自己修复HADOOP-10547(因为它似乎是2.4 version of hadoop for AWS doesn't have this fix),构建它,然后尝试重建giraph。我只是自己构建hadoop,为了修复那个bug,我没有计划在那之后继续修改它。这个选项的缺点是,我不确定是否可以在AWS部署中再次执行此操作(可能使用bootstraps操作?)

在Amazon EMR中使用hadoop 2.4.0和giraph 1.1.0时,我可能还没有考虑其他选项。

1 个答案:

答案 0 :(得分:0)

前段时间我完成了这个form,当我看到HADOOP-10547中没有修复2.4 version of hadoop for AWS时,告诉他们如果他们可以解决这个错误会非常好。

几天前,亚马逊AWS团队member向我发送了这封电子邮件:

  

我会将反馈意见转发给HADOOP-10547补丁给团队   将Apache版本集成到EMR中。得到它总是很重要   来自客户的此类反馈,以便我们提供他们的服务   想要,所以感谢你伸出援手。

所以也许在某个时间我们会有一个明确的解决方案。