用于EMR的hi1.4xlarge SSD EC2实例

时间:2012-10-11 09:23:22

标签: hadoop amazon-s3 amazon-ec2 ssd emr

我有几个hadoop工作,我在EMR上运行。其中一些作业需要处理日志文件。日志文件大小为〜3GB,格式为.gz。日志存储在S3上。

目前,我使用m1.xlarge进行处理,将日志文件从S3复制到HDFS大约需要3小时。这里的瓶颈是从S3读取还是写入HDFS?

我计划使用新的基于SSD的hi1.4xlarge,因为它具有快速I / O,而不是m1.xlarge。但它有助于降低成本吗?

但hi1.4xlarge的成本远远超过m1.xlarge。

m1.xlarge - 8个EC2计算单位@ 0.614 $每个= 4.912 $ /小时 h1.4xlarge - 35 EC2计算单位@ 3.1 $每个= 108.5 $ /小时

价格涨幅约为23倍。我会获得如此多的性能提升吗?考虑我的 hadoop的工作是高I / O限制。

我无法通过启动hi1.4xlarge实例来测试它,所以在StackOverflow上询问它。有没有人比较两种实例类型的基准?谷歌没有帮助。

问候。

1 个答案:

答案 0 :(得分:1)

  1. 我不认为SSD实例是不错的选择,因为它们的值是高随机IO,而在Hadoop中我们需要顺序IO。
  2. 在从s3复制到HDFS期间,s3几乎肯定是瓶颈。
  3. 为了省钱,我建议尝试使用较小的实例来平衡IO和CPU
  4. 您是否正在使用DISTCP将数据从s3复制到HDFS(只是为了检查...)
  5. 如果每个群集生命周期处理一次日志 - 您可以直接从s3处理并避免复制到HDFS。