每当新文件到达特定文件夹时,我都会尝试将文件从远程计算机提取到我的hdfs。我在水槽中遇到了线轴目录的概念,如果线轴目录位于水槽代理运行的同一台机器上,它工作正常。
是否有任何方法可以在远程机器中配置假脱机目录?请帮忙。
答案 0 :(得分:5)
你可能知道水槽可以产生多个实例,也就是说你可以安装几个水槽实例来传递它们之间的数据。
所以回答你的问题:不,水槽无法访问远程假脱机目录。但您可以安装两个代理,一个在具有假脱机目录的计算机上,另一个在hadoop节点上。
第一个将从假脱机读取并通过avro rpc传递给第二个代理,该代理将数据刷新到HDFS。
这是一个简单的设置,只需要几行配置。