我的理解是运行Dataproc集群而不是设置自己的计算引擎集群是它负责安装存储连接器(和其他连接器)。它还能为你做什么?
答案 0 :(得分:3)
Dataproc在DIY集群之外的最重要特征是能够通过API,WebUI和CLI提交作业(Hadoop& Spark jars,Hive查询等),而无需配置棘手的网络防火墙并将YARN暴露给全世界。
Cloud Dataproc还负责大量配置和初始化,例如为Hive和Spark设置共享Hive Metastore。并允许在启动时指定Hadoop,Spark等属性。
它在〜90年代引导群集,根据我的经验,它比大多数群集设置更快。这使您可以在不感兴趣时拆除群集,而不必等待数十分钟才能启动新群集。
我建议您查看更全面的list of features。