我怀疑答案是“它取决于”,但是对于计划用于Presto的硬件类型是否存在任何一般性指导?
由于Presto使用协调器和一组工作人员,并且工作人员使用数据运行,因此我认为主要问题是为协调器提供足够的RAM,为工作人员发送给协调员的部分结果有足够的网络带宽等。
如果你可以提供一些关于如何适当调整大小的一般想法,我很乐意听到它们。
答案 0 :(得分:26)
大多数人都在他们已有的Hadoop节点上运行Presto。在Facebook,我们通常在Hadoop集群内的几个节点上运行Presto,以分散网络负载。
一般来说,我会选择新集群的行业标准比率:每个磁盘有2个内核和2-4个内存,如果你负担得起,可以使用10千兆网络。在您拥有一些机器(4+)之后,使用您对数据的查询进行基准测试。如果您需要调整比率,这应该是显而易见的。
在从头开始调整集群硬件的方面需要考虑一些事项:
在Facebook,我们按照以下方式运行Presto流程: