应用错误收集

时间：2012-10-11 09:23:22

标签： hadoop amazon-s3 amazon-ec2 ssd emr

我有几个hadoop工作，我在EMR上运行。其中一些作业需要处理日志文件。日志文件大小为〜3GB，格式为.gz。日志存储在S3上。

目前，我使用m1.xlarge进行处理，将日志文件从S3复制到HDFS大约需要3小时。这里的瓶颈是从S3读取还是写入HDFS？

我计划使用新的基于SSD的hi1.4xlarge，因为它具有快速I / O，而不是m1.xlarge。但它有助于降低成本吗？

但hi1.4xlarge的成本远远超过m1.xlarge。

m1.xlarge - 8个EC2计算单位@ 0.614 $每个= 4.912 $ /小时 h1.4xlarge - 35 EC2计算单位@ 3.1 $每个= 108.5 $ /小时

价格涨幅约为23倍。我会获得如此多的性能提升吗？考虑我的 hadoop的工作是高I / O限制。

我无法通过启动hi1.4xlarge实例来测试它，所以在StackOverflow上询问它。有没有人比较两种实例类型的基准？谷歌没有帮助。

问候。

答案 0 :(得分：1)