应用错误收集

时间：2012-04-17 21:16:56

标签： hadoop amazon-web-services

如果有任何人有这方面的经验，我正在寻找一个球场......

有没有人对AWS的地图缩减速度有基准？

假设我有1亿条记录，我正在使用hadoop流（一个PHP脚本）进行映射，分组和缩减（使用一些简单的php计算）。平均组将包含1-6条记录。

运行一堆小实例或更大实例也更好/更具成本效益？我意识到它被分解为一个实例中的节点，但不管更大的节点是否具有更高的I / O，这意味着每个服务器的每个节点更快（并且更具成本效益）？

还有流式传输，如何确定地图绘制器与缩减器的比例？

答案 0 :(得分：1)

我不知道你是否可以给出一个有意义的基准 - 这有点像询问计算机程序通常运行的速度。如果不了解脚本的任何信息，就不可能说出你的程序运行速度有多快。

如果您的意思是，为EMR作业提供动力的实例的速度有多快，它们与您指定的基础实例的规范相同，具有相同的规范。

如果你想对EMR的表现有不同的看法：我会说你可能在CPU瓶颈之前遇到I / O瓶颈。

理论上，这意味着您应该运行许多小型实例并要求机架多样性，以便从更多机器中获取更多I / O资源，而不是让它们竞争。在实践中，我发现更少，更高的I / O实例可以更有效。但即使这种印象并不总是成立 - 实际上取决于区域的繁忙程度和工作安排的位置。