我有一堆压缩成* gz格式的二进制文件。这些是在远程节点上生成的,必须传输到位于数据中心服务器之一的HDFS。
我正在探索使用Flume发送文件的选项;我探讨了使用假脱机目录配置执行此操作的选项,但显然这只适用于文件目录位于同一HDFS节点本地的情况。
有关如何解决此问题的任何建议吗?
答案 0 :(得分:7)
为什么不运行两个不同的Flume代理,一个在远程计算机上,另一个在日期节点上。远程计算机上的代理可以读取假脱机目录并将其发送到avro接收器。并且datanode上的代理可以读取avro源并将数据转储到HDFS。
答案 1 :(得分:2)
这种情况没有开箱即用的解决方案。但你可以尝试这些解决方法: