impala数据存储在哪里分配?

时间:2015-02-22 18:04:37

标签: cloudera-cdh impala

如果表完全由impala管理,是否有指定的目录用于存储数据?

或者由datanode将数据分配到由datanode目录配置的HDFS中的任何位置,例如/ dfs / dn?

如果我的应用程序正在运行一个没有运行datanode的节点,那么最好是我应该运行impalad吗?这样我可以连接到impala anywhwere只使用localhost?否则我将连接到特定的主机和端口?

1 个答案:

答案 0 :(得分:1)

对于由Impala管理的表,数据存储在Hive Metastore仓库目录中,该目录由Hive Metastore配置属性&#; hive.metastore.warehouse.dir'配置。在hive-site.xml中。这是HDFS中的目录,因此数据节点上的基础存储位置由HDFS配置决定。

您应该在运行数据节点的节点上运行Impala守护程序,以便扫描可以与数据共存。您的应用应该连接到远程Impala守护程序。围绕群集分发请求通常是一个好主意,甚至是必要的,具体取决于工作负载,以避免单个协调器impalad的瓶颈。许多人使用HAProxy执行此操作,有关详细信息,请参阅this documentation