我正在运行一个20个Preemptible GCE实例的实例组来读取Google存储上的ORC文件,数据按小时划分,每小时约2GB。
部分回复也将受到赞赏。
答案 0 :(得分:1)
作为PrestoDB的0.199版本,Presto没有谷歌云存储连接器,这使得无法查询GCS数据。
关于硬件要求,我在这里引用Terada doc。
内存
您应该为Presto为每个节点分配至少16GB的RAM。但 建议大多数生产工作负载使用64GB。
网络带宽
建议在所有节点之间安装万兆以太网 集群。
其他建议
Presto可以安装在任何正常配置的Hadoop集群上。 YARN应配置为占用专用资源 普雷斯托。例如,如果一个节点有64GB的RAM,也许你会这么做 通常为YARN分配60GB。如果您在该节点上安装Presto 给Presto 32GB的RAM,然后你应该从60GB减去32GB 让YARN每个节点只分配28GB。优化配置 可能会选择单独的Presto和Hadoop节点。优化 配置允许您为Presto提供更多内存,从而 例如,执行更大的连接查询。