对于数据摄取,我想使用flume并将其放在边缘节点(在集群外的安全DMZ中)或其中一个工作节点上。
答案 0 :(得分:1)
工作节点(即datanode)上的Flume存在一个问题。使用HDFS时,如果客户端在datanode上运行,则在写入数据时,数据的第一个副本始终写入本地datanode。
因此,如果您有许多数据节点,然后您只有几个数据节点运行Flume,那么这些数据节点将比其他节点使用更多的空间。这实际上取决于您计划用Flume写出的数据量是否有问题,以及是否在写入数据后处理数据。
将Flume放在边缘节点上可能有很好的防火墙/安全性原因 - 这实际上取决于您的要求。