amazon-web-services - 必须impalad在datanode上运行？

一点背景：

我已经在Amazon EMR 4.1上运行了Impala 2.2（这本身就是一个非常令人头疼的问题） - 拥有1个主节点，3个核心节点和3个任务节点。

在与AWS解决方案架构师交流之后，我们的理解是，我们可以拥有一个长期运行的“核心集群”，主节点和核心节点包含持久性HDFS存储。然后，我们可以根据需要添加适当数量的任务节点，这将快速移动我们在再次关闭之前提交的作业。

问题：

我们看到的问题是任务节点没有参与大多数查询，例如那些涉及计算统计的查询。

这是Impala行为还是EMR行为上的Impala？

Impala具有远程读取的概念，那么有没有办法放宽标准以在处理中包含非datanode？