如何将presto群集集成到hadoop群集?

时间:2019-04-18 10:05:56

标签: hadoop presto

我们有基于ambari的Hadoop集群 由于节俭服务器的性能较差,我们决定将其替换为presto 我们当前的Hadoop集群具有以下计算机 960台数据节点机器(基于redhat 7 OS)

关于话语的几句话- Presto(或PrestoDB)是一个开放源代码的分布式SQL查询引擎,它是从头开始设计的,可对任何大小的数据进行快速分析查询。它支持两种非关系源,例如Hadoop分布式文件系统(HDFS),

我们按照以下步骤安装了新的presto服务器 首先,我们安装了操作系统(redhat 7),总共有13台计算机 1台用于presto协调器的机器 还有12台用于Presto工人的机器

安装操作系统后 我们成功安装了presto(presto协调员+ presto工人)

现在,我们被困在如何进行presto集群与Hadoop集群之间的集成中

我将提供有关蜂巢连接器的简短示例(hive.properties)

我们有以下变量 hive.config.resources = / etc / hadoop / conf / core-site.xml,/ etc / hadoop / conf / hdfs-site.xml

由于此文件位于数据节点机器上,并且当然不在presto worker机器上,所以我假设我们需要将这些文件从数据节点机器之一复制到presto worker机器上

我在这里吗?

1 个答案:

答案 0 :(得分:0)

您通常不需要配置hive.config.resources来允许Presto与您的HDFS群集进行通话。尝试在没有该配置的情况下使用Presto。仅在有特殊要求(例如Hadoop KMS)时配置它。

要对其进行配置,请将适当的Hadoop配置文件复制到您的Presto机器(协调器和工作器),然后将hive.config.resources设置为指向这些文件。

有关更多详细信息,请参见Hive connector documentation