应用错误收集

如何使用Apache FLUME将数据写入HA Hadoop QJM？

时间：2015-05-11 22:02:33

标签： hadoop hdfs flume high-availability

如何识别活动名称节点以便将数据写入HDFS？如果没有高可用性Hadoop，我们将在flume.conf中配置namenode ip，以便将数据轻松导向HDFS。在我们的情况下，Flume应该识别活动和备用名称节点，从而数据应该指向活动的名称节点。

3 个答案:

答案 0 :(得分：1)

AFAIK直接无法实现。 HDFS sink配置只有一个Namenode空间。

尽管如此，我认为您可以配置两个HDFS接收器（和两个通道），每个接收器指向一个Namenode。由于默认Replicating Channel Selector，源将在两个通道中放置每个事件的副本。因此，每个接收器都会尝试自己保存数据;指向备用Namenode的那个将不会保留任何内容，直到活动的一个关闭并且备用数据库变为活动状态。

HTH！

答案 1 :(得分：0)

这对我有用（hadoop 2.7.1，flume 1.6.0）：将hadoop * - site.xml 配置文件放到您的水槽类路径

不确定哪个有效，我放置了核心站点，hdfs-site，yarn-site，mapred-site）但是群集名称的设置在core-site.xml中

答案 2 :(得分：0)

关于Pilgrim的答案，您只能将hdfs-site.xml配置文件放置到您的水槽类路径中。只需将此文件复制到 $ APACHE_FLUME_HOME / conf / 目录或将FLUME_CLASSPATH="/where/is/your/hdfs-site.xml"添加到 flume-env.sh

您必须确保hadoop名称服务配置适用于此。