EC2与ElasticMapReduce / S3上的Hadoop

时间:2012-03-30 07:24:17

标签: hadoop hbase

我已经使用了ElasticMapReduce一段时间了。这是非常方便但我无法运行HBase,因为Hadoop集群只是暂时可用(我已在HBase and Hadoop询问了一些相关问题)。

所以我想尝试在一组EC2机器上安装Hadoop。我知道Hadoop有一些与EC2相关的目录--src / contrib / ec2。看起来只需键入命令就可以启动Hadoop集群,我可以登录主节点来运行作业等等。在尝试这个之前,我想知道任何来自ppl的人已经使用过这个问题了。谢谢!

1 个答案:

答案 0 :(得分:0)

确实有两种方法可以在亚马逊上使用hadoop - 提供你自己的集群或usint EMR。与此决策正交,您可以使用HDFS或S3作为文件系统。 这不是短篇小说,但我会尝试高举所有这些选择的一些优点/缺点。
如果您需要每天运行单个/少数作业并且不需要始终使用hadoop群集,则可以使用EMR。在这种情况下,您将数据放入s3并可以完全编写流程脚本。主要缺点 - 不容易定制,使用第三方库等。在这种情况下,您还可以节省安装群集的时间。 如果你想调整hadoop - 你应该安装自己的集群。
当您的数据已经在s3中或者您需要在处理后存储它时 - s3是一个不错的选择。同时 - 使用HDFS会降低性能。必须指出的是,亚马逊实例的本地存储空间很小 - 因此它变得非常昂贵,您应该保持群集运行(并支付费用),以保留此存储。
我会告诉你,如果你确实需要HDFS及其所有throuput,你确实需要在自己的硬件上拥有自己的集群。当您在亚马逊上工作时 - 最实际的做法是使用S3作为您的文件系统。