我一直在尝试使用EMR上的Impala,在我看来它只使用集群中的核心节点,而不是任务节点。
我正在使用EMR提供的内置Impala安装,即1.2.4。当我的群集中有任务节点时,它们会显示在Impalad管理应用程序的“已知后端”列表中。但是在“查询”页面的“查询位置”下,它只显示我的集群中核心节点的主机名,而不是任务节点。这告诉我,查询只在核心节点上运行。也许是因为HDFS只在核心节点上?
任何人都可以证实吗?如果是这样,有没有办法让它使用它们?
干杯 汤姆
答案 0 :(得分:0)
Impala将仅在Core节点(datanode)上运行查询,因为每个Impala进程直接读取/写入本地HDFS存储。这是Impala提高性能的方法之一。