应用错误收集

Google Dataproc是否支持Apache Impala？

时间：2019-05-30 20:07:10

标签： google-cloud-platform impala google-cloud-dataproc

我不熟悉使用云服务，而浏览Google的Cloud Platform非常令人生畏。说到Google Dataproc，他们确实做广告Hadoop，Spark和Hive。

我的问题是，Impala完全可用吗？

我想使用所有这四个工具进行一些基准测试项目，并且我需要Apache Impala和Spark / Hive一起使用。

4 个答案:

答案 0 :(得分：2)

否，DataProc是支持Hadoop，Spark，Hive和Pig的集群；使用默认图片。

检查此链接以获取有关DataProc本机图像列表的更多信息

https://cloud.google.com/dataproc/docs/concepts/versioning/dataproc-versions

答案 1 :(得分：2)

您也可以尝试使用Dataproc的另一个新实例，而不是使用默认实例。

例如，您可以使用def lnprior(theta): m, b, lnf = theta if -5.0 < m < 0.5 and 0.0 < b < 10.0 and -10.0 < lnf < 1.0: return 0.0 return -np.inf创建一个Dataproc实例，该实例是处理Cloudera构建的Hadoop集群的接口。这样做的好处是，HUE具有默认组件Apache Impala。它还具有Pig，Hive等。因此，这是使用Impala的不错的解决方案。

另一种解决方案是从头开始创建自己的集群，但这不是一个好主意（至少您要自定义所有内容）。通过这种方式，您可以安装Impala。

答案 2 :(得分：1)

Dataproc为您提供了对主服务器和工作服务器的SSH访问，因此可以安装其他软件，并且根据Impala文档，您需要：

确保Impala Requirements。
Set up Impala on a cluster by building from source。

请记住，建议在每个DataNode上安装impalad守护程序。

答案 3 :(得分：0)

默认情况下，Cloud Dataproc在群集上支持Hadoop，Spark，Hive，Pig。您可以安装更多可选的受支持组件，例如Zookeeper，Jyputer，Anaconda，Kerberos，Druid和Presto（您可以找到完整列表here）。另外，您可以使用initialization-actions安装大量开源组件。

不支持将Impala作为可选组件，并且尚无初始化操作脚本。您可以让它在带有HDFS的Dataproc上工作，但使其与GCS一起工作可能需要进行一些不小的更改。