谷歌云上的数据集群

时间:2017-06-27 16:32:22

标签: google-compute-engine google-cloud-dataproc

我的理解是运行Dataproc集群而不是设置自己的计算引擎集群是它负责安装存储连接器(和其他连接器)。它还能为你做什么?

1 个答案:

答案 0 :(得分:3)

Dataproc在DIY集群之外的最重要特征是能够通过API,WebUI和CLI提交作业(Hadoop& Spark jars,Hive查询等),而无需配置棘手的网络防火墙并将YARN暴露给全世界。

Cloud Dataproc还负责大量配置和初始化,例如为Hive和Spark设置共享Hive Metastore。并允许在启动时指定Hadoop,Spark等属性。

它在〜90年代引导群集,根据我的经验,它比大多数群集设置更快。这使您可以在不感兴趣时​​拆除群集,而不必等待数十分钟才能启动新群集。

我建议您查看更全面的list of features