如果有任何人有这方面的经验,我正在寻找一个球场......
有没有人对AWS的地图缩减速度有基准?
假设我有1亿条记录,我正在使用hadoop流(一个PHP脚本)进行映射,分组和缩减(使用一些简单的php计算)。平均组将包含1-6条记录。
运行一堆小实例或更大实例也更好/更具成本效益?我意识到它被分解为一个实例中的节点,但不管更大的节点是否具有更高的I / O,这意味着每个服务器的每个节点更快(并且更具成本效益)?
还有流式传输,如何确定地图绘制器与缩减器的比例?
答案 0 :(得分:1)
我不知道你是否可以给出一个有意义的基准 - 这有点像询问计算机程序通常运行的速度。如果不了解脚本的任何信息,就不可能说出你的程序运行速度有多快。
如果您的意思是,为EMR作业提供动力的实例的速度有多快,它们与您指定的基础实例的规范相同,具有相同的规范。
如果你想对EMR的表现有不同的看法:我会说你可能在CPU瓶颈之前遇到I / O瓶颈。
理论上,这意味着您应该运行许多小型实例并要求机架多样性,以便从更多机器中获取更多I / O资源,而不是让它们竞争。在实践中,我发现更少,更高的I / O实例可以更有效。但即使这种印象并不总是成立 - 实际上取决于区域的繁忙程度和工作安排的位置。