我有几个hadoop工作,我在EMR上运行。其中一些作业需要处理日志文件。日志文件大小为〜3GB,格式为.gz。日志存储在S3上。
目前,我使用m1.xlarge进行处理,将日志文件从S3复制到HDFS大约需要3小时。这里的瓶颈是从S3读取还是写入HDFS?
我计划使用新的基于SSD的hi1.4xlarge,因为它具有快速I / O,而不是m1.xlarge。但它有助于降低成本吗?
但hi1.4xlarge的成本远远超过m1.xlarge。
m1.xlarge - 8个EC2计算单位@ 0.614 $每个= 4.912 $ /小时 h1.4xlarge - 35 EC2计算单位@ 3.1 $每个= 108.5 $ /小时
价格涨幅约为23倍。我会获得如此多的性能提升吗?考虑我的 hadoop的工作是高I / O限制。
我无法通过启动hi1.4xlarge实例来测试它,所以在StackOverflow上询问它。有没有人比较两种实例类型的基准?谷歌没有帮助。
问候。
答案 0 :(得分:1)