Google Dataproc是否支持Apache Impala?

时间:2019-05-30 20:07:10

标签: google-cloud-platform impala google-cloud-dataproc

我不熟悉使用云服务,而浏览Google的Cloud Platform非常令人生畏。说到Google Dataproc,他们确实做广告Hadoop,Spark和Hive。

我的问题是,Impala完全可用吗?

我想使用所有这四个工具进行一些基准测试项目,并且我需要Apache Impala和Spark / Hive一起使用。

4 个答案:

答案 0 :(得分:2)

否,DataProc是支持Hadoop,Spark,Hive和Pig的集群;使用默认图片。

检查此链接以获取有关DataProc本机图像列表的更多信息

https://cloud.google.com/dataproc/docs/concepts/versioning/dataproc-versions

答案 1 :(得分:2)

您也可以尝试使用Dataproc的另一个新实例,而不是使用默认实例。

例如,您可以使用def lnprior(theta): m, b, lnf = theta if -5.0 < m < 0.5 and 0.0 < b < 10.0 and -10.0 < lnf < 1.0: return 0.0 return -np.inf 创建一个Dataproc实例,该实例是处理Cloudera构建的Hadoop集群的接口。这样做的好处是,HUE具有默认组件Apache Impala。它还具有Pig,Hive等。因此,这是使用Impala的不错的解决方案。

另一种解决方案是从头开始创建自己的集群,但这不是一个好主意(至少您要自定义所有内容)。通过这种方式,您可以安装Impala。

这里是一个链接,有关更多信息:

https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/tree/master/hue

答案 2 :(得分:1)

Dataproc为您提供了对主服务器和工作服务器的SSH访问,因此可以安装其他软件,并且根据Impala文档,您需要:

请记住,建议在每个DataNode上安装impalad守护程序。

答案 3 :(得分:0)

默认情况下,Cloud Dataproc在群集上支持Hadoop,Spark,Hive,Pig。您可以安装更多可选的受支持组件,例如Zookeeper,Jyputer,Anaconda,Kerberos,Druid和Presto(您可以找到完整列表here)。另外,您可以使用initialization-actions安装大量开源组件。

不支持将Impala作为可选组件,并且尚无初始化操作脚本。您可以让它在带有HDFS的Dataproc上工作,但使其与GCS一起工作可能需要进行一些不小的更改。