应用错误收集

哪里可以在EC2上找到适用于Hadoop的AMI？

时间：2013-10-08 23:49:59

标签： linux hadoop amazon-web-services amazon-ec2 bioinformatics

我正在尝试在Amazon EC2上永久设置Hadoop。目前我正在做的是每天早上启动EC2实例并设置Hadoop。有什么方法可以避免这个乏味的步骤吗？我正在寻找一个可以加载到EC2上的Hadoop图像，让我感觉很轻松。

我知道我可以将EMR用于hadoop服务。但我不知道如何在不提交工作流程的情况下启动EMR（hadoop）集群。我的意思是我需要一个没有任何工作的hadoop集群。

最终我的目标是运行生物信息学应用程序，如Distmap和Seal。对于要运行的这些应用程序，存在许多依赖项。所以我需要一个免费的hadoop集群来设置环境，然后运行这些应用程序。我希望它清楚我要做的事情。

感谢。

2 个答案:

答案 0 :(得分：3)

您可以做的是以下其中一项：

选项1.从您喜爱的Linux发行版开始使用EBS支持的EC2实例。继续安装您需要的Hadoop软件。创建与您将需要的实例类型（主/从/等）一样多的EC2实例。您可以在AWS控制台中创建自己的AMI（右键单击EC2实例并单击“创建AMI”）。然后，您可以根据此AMI启动您自己的实例。您还可以从实例存储支持的实例创建AMI，但这意味着将所有内容转储到S3并从那里创建AMI。有很多关于此的教程，如果您需要指示，请发表评论：）

选项2.从基于Hadoop的AMI开始，在完成自己的配置/向其添加依赖项后重复上述步骤。我继续从AWS控制台搜索Hadoop AMI，在EU-West-1中有48个（不确定您正在使用哪个区域）。

选项3.以交互模式启动EMR群集。完成作业流程后，还有一个选项可以使群集保持活动状态。如果您还为EMR实例设置了EC2密钥，您应该可以通过SSH连接它们并拥有一个功能强大的Hadoop集群（不确定依赖项，您可能最好自己动手）。

我希望我能正确理解你想要达到的目标，这有点帮助。

答案 1 :(得分：1)

这更多是配置管理和自动化问题。尝试CMT，如厨师和木偶，根据您的愿望完成这项工作。