我刚刚运行Elastic Map reduce示例应用程序:“Apache Log Processing”
默认: 当我使用默认配置(2个小型核心实例)运行时 - 花了19分钟
横向扩展: 然后我用配置运行它:8个小型核心实例 - 花了18分钟
放大: 然后我用配置运行它:2个大型核心实例 - 花了14分钟。
当我们拥有更大的数据集时,如何考虑扩展与扩展的性能?
感谢。
答案 0 :(得分:0)
我想说这取决于。我通常使用m1.large和m1.xlarge实例发现原始处理速度要好得多。除此之外,正如您所注意到的那样,相同的工作可能需要相同的摊销或标准化实例小时才能完成。
对于您的工作,您可能希望首先尝试使用较小的样本数据集,然后查看需要多长时间,然后估算使用大型数据集完成整个作业所需的时间。我发现这是估算工作完成时间的最佳方式。