哪里可以在EC2上找到适用于Hadoop的AMI?

时间:2013-10-08 23:49:59

标签: linux hadoop amazon-web-services amazon-ec2 bioinformatics

我正在尝试在Amazon EC2上永久设置Hadoop。目前我正在做的是每天早上启动EC2实例并设置Hadoop。有什么方法可以避免这个乏味的步骤吗?我正在寻找一个可以加载到EC2上的Hadoop图像,让我感觉很轻松。

我知道我可以将EMR用于hadoop服务。但我不知道如何在不提交工作流程的情况下启动EMR(hadoop)集群。我的意思是我需要一个没有任何工作的hadoop集群。

最终我的目标是运行生物信息学应用程序,如DistmapSeal。对于要运行的这些应用程序,存在许多依赖项。所以我需要一个免费的hadoop集群来设置环境,然后运行这些应用程序。 我希望它清楚我要做的事情。

感谢。

2 个答案:

答案 0 :(得分:3)

您可以做的是以下其中一项:

选项1.从您喜爱的Linux发行版开始使用EBS支持的EC2实例。继续安装您需要的Hadoop软件。创建与您将需要的实例类型(主/从/等)一样多的EC2实例。您可以在AWS控制台中创建自己的AMI(右键单击EC2实例并单击“创建AMI”)。然后,您可以根据此AMI启动您自己的实例。您还可以从实例存储支持的实例创建AMI,但这意味着将所有内容转储到S3并从那里创建AMI。有很多关于此的教程,如果您需要指示,请发表评论:)

选项2.从基于Hadoop的AMI开始,在完成自己的配置/向其添加依赖项后重复上述步骤。我继续从AWS控制台搜索Hadoop AMI,在EU-West-1中有48个(不确定您正在使用哪个区域)。

选项3.以交互模式启动EMR群集。完成作业流程后,还有一个选项可以使群集保持活动状态。如果您还为EMR实例设置了EC2密钥,您应该可以通过SSH连接它们并拥有一个功能强大的Hadoop集群(不确定依赖项,您可能最好自己动手)。

我希望我能正确理解你想要达到的目标,这有点帮助。

答案 1 :(得分:1)

这更多是配置管理和自动化问题。尝试CMT,如厨师和木偶,根据您的愿望完成这项工作。