我正在尝试在Amazon EC2上永久设置Hadoop。目前我正在做的是每天早上启动EC2实例并设置Hadoop。有什么方法可以避免这个乏味的步骤吗?我正在寻找一个可以加载到EC2上的Hadoop图像,让我感觉很轻松。
我知道我可以将EMR用于hadoop服务。但我不知道如何在不提交工作流程的情况下启动EMR(hadoop)集群。我的意思是我需要一个没有任何工作的hadoop集群。
最终我的目标是运行生物信息学应用程序,如Distmap和Seal。对于要运行的这些应用程序,存在许多依赖项。所以我需要一个免费的hadoop集群来设置环境,然后运行这些应用程序。 我希望它清楚我要做的事情。
感谢。
答案 0 :(得分:3)
您可以做的是以下其中一项:
选项1.从您喜爱的Linux发行版开始使用EBS支持的EC2实例。继续安装您需要的Hadoop软件。创建与您将需要的实例类型(主/从/等)一样多的EC2实例。您可以在AWS控制台中创建自己的AMI(右键单击EC2实例并单击“创建AMI”)。然后,您可以根据此AMI启动您自己的实例。您还可以从实例存储支持的实例创建AMI,但这意味着将所有内容转储到S3并从那里创建AMI。有很多关于此的教程,如果您需要指示,请发表评论:)
选项2.从基于Hadoop的AMI开始,在完成自己的配置/向其添加依赖项后重复上述步骤。我继续从AWS控制台搜索Hadoop AMI,在EU-West-1中有48个(不确定您正在使用哪个区域)。
选项3.以交互模式启动EMR群集。完成作业流程后,还有一个选项可以使群集保持活动状态。如果您还为EMR实例设置了EC2密钥,您应该可以通过SSH连接它们并拥有一个功能强大的Hadoop集群(不确定依赖项,您可能最好自己动手)。
我希望我能正确理解你想要达到的目标,这有点帮助。
答案 1 :(得分:1)
这更多是配置管理和自动化问题。尝试CMT,如厨师和木偶,根据您的愿望完成这项工作。