边缘或工人节点上的水槽?

时间:2016-09-20 21:37:42

标签: hadoop flume

对于数据摄取,我想使用flume并将其放在边缘节点(在集群外的安全DMZ中)或其中一个工作节点上。

  • 是否有最好的做法放在哪里?
  • 每种方法的优点/缺点是什么?

1 个答案:

答案 0 :(得分:1)

工作节点(即datanode)上的Flume存在一个问题。使用HDFS时,如果客户端在datanode上运行,则在写入数据时,数据的第一个副本始终写入本地datanode。

因此,如果您有许多数据节点,然后您只有几个数据节点运行Flume,那么这些数据节点将比其他节点使用更多的空间。这实际上取决于您计划用Flume写出的数据量是否有问题,以及是否在写入数据后处理数据。

将Flume放在边缘节点上可能有很好的防火墙/安全性原因 - 这实际上取决于您的要求。