必须impalad在datanode上运行?

时间:2015-12-08 06:31:26

标签: amazon-web-services emr impala

一点背景:

我已经在Amazon EMR 4.1上运行了Impala 2.2(这本身就是一个非常令人头疼的问题) - 拥有1个主节点,3个核心节点和3个任务节点。

在与AWS解决方案架构师交流之后,我们的理解是,我们可以拥有一个长期运行的“核心集群”,主节点和核心节点包含持久性HDFS存储。然后,我们可以根据需要添加适当数量的任务节点,这将快速移动我们在再次关闭之前提交的作业。

问题:

我们看到的问题是任务节点没有参与大多数查询,例如那些涉及计算统计的查询。

这是Impala行为还是EMR行为上的Impala?

Impala具有远程读取的概念,那么有没有办法放宽标准以在处理中包含非datanode?

1 个答案:

答案 0 :(得分:2)

Impala确实会出现在数据节点上,这对于在每个节点本地读取HDFS所带来的性能提升至关重要。