在可抢占的GCE实例上的Presto

时间:2017-06-18 20:19:18

标签: google-cloud-storage presto orc google-compute-engine

我正在运行一个20个Preemptible GCE实例的实例组来读取Google存储上的ORC文件,数据按小时划分,每小时约2GB。

  1. 我应该使用什么类型的实例?
  2. JVM应该使用多少Ram?
  3. 我正在使用80%CPU的自动调节配置和10分钟的冷却时间,Presto是否有更多的字幕配置?
  4. 由于缺乏资源,是否存在服务器关闭的解决方案?
  5. 部分回复也将受到赞赏。

1 个答案:

答案 0 :(得分:1)

作为PrestoDB的0.199版本,Presto没有谷歌云存储连接器,这使得无法查询GCS数据。

关于硬件要求,我在这里引用Terada doc

  

内存

     

您应该为Presto为每个节点分配至少16GB的RAM。但   建议大多数生产工作负载使用64GB。

     

网络带宽

     

建议在所有节点之间安装万兆以太网   集群。

     

其他建议

     

Presto可以安装在任何正常配置的Hadoop集群上。   YARN应配置为占用专用资源   普雷斯托。例如,如果一个节点有64GB的RAM,也许你会这么做   通常为YARN分配60GB。如果您在该节点上安装Presto   给Presto 32GB的RAM,然后你应该从60GB减去32GB   让YARN每个节点只分配28GB。优化配置   可能会选择单独的Presto和Hadoop节点。优化   配置允许您为Presto提供更多内存,从而   例如,执行更大的连接查询。