我不熟悉使用云服务,而浏览Google的Cloud Platform非常令人生畏。说到Google Dataproc,他们确实做广告Hadoop,Spark和Hive。
我的问题是,Impala完全可用吗?
我想使用所有这四个工具进行一些基准测试项目,并且我需要Apache Impala和Spark / Hive一起使用。
答案 0 :(得分:2)
否,DataProc是支持Hadoop,Spark,Hive和Pig的集群;使用默认图片。
检查此链接以获取有关DataProc本机图像列表的更多信息
https://cloud.google.com/dataproc/docs/concepts/versioning/dataproc-versions
答案 1 :(得分:2)
您也可以尝试使用Dataproc的另一个新实例,而不是使用默认实例。
例如,您可以使用def lnprior(theta):
m, b, lnf = theta
if -5.0 < m < 0.5 and 0.0 < b < 10.0 and -10.0 < lnf < 1.0:
return 0.0
return -np.inf
创建一个Dataproc实例,该实例是处理Cloudera构建的Hadoop集群的接口。这样做的好处是,HUE具有默认组件Apache Impala。它还具有Pig,Hive等。因此,这是使用Impala的不错的解决方案。
另一种解决方案是从头开始创建自己的集群,但这不是一个好主意(至少您要自定义所有内容)。通过这种方式,您可以安装Impala。
这里是一个链接,有关更多信息:
https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/tree/master/hue
答案 2 :(得分:1)
Dataproc为您提供了对主服务器和工作服务器的SSH访问,因此可以安装其他软件,并且根据Impala文档,您需要:
请记住,建议在每个DataNode上安装impalad守护程序。
答案 3 :(得分:0)
默认情况下,Cloud Dataproc在群集上支持Hadoop,Spark,Hive,Pig。您可以安装更多可选的受支持组件,例如Zookeeper,Jyputer,Anaconda,Kerberos,Druid和Presto(您可以找到完整列表here)。另外,您可以使用initialization-actions安装大量开源组件。
不支持将Impala作为可选组件,并且尚无初始化操作脚本。您可以让它在带有HDFS的Dataproc上工作,但使其与GCS一起工作可能需要进行一些不小的更改。