Spool Dir of flume可以在远程机器上吗?

时间:2014-09-24 13:22:14

标签: hadoop hdfs bigdata flume spool

每当新文件到达特定文件夹时,我都会尝试将文件从远程计算机提取到我的hdfs。我在水槽中遇到了线轴目录的概念,如果线轴目录位于水槽代理运行的同一台机器上,它工作正常。

是否有任何方法可以在远程机器中配置假脱机目录?请帮忙。

1 个答案:

答案 0 :(得分:5)

你可能知道水槽可以产生多个实例,也就是说你可以安装几个水槽实例来传递它们之间的数据。

所以回答你的问题:不,水槽无法访问远程假脱机目录。但您可以安装两个代理,一个在具有假脱机目录的计算机上,另一个在hadoop节点上。

第一个将从假脱机读取并通过avro rpc传递给第二个代理,该代理将数据刷新到HDFS。

这是一个简单的设置,只需要几行配置。