如何将磁盘上的大量文件文件移动到HDFS序列文件

时间:2013-08-15 03:29:51

标签: apache-camel hdfs flume

我想将大量小文件移动到HDFS序列文件中。我遇到了两个选择:

  1. 使用水槽。 Flume没有内置文件源,这需要一个自定义源来推送文件。
  2. 使用apache camel文件到hdfs route。
  3. 尽管上述两种方法都是有用的,但我还是想在选择之前权衡其他选项。特别是我对一个更易配置的解决方案感兴趣,并导致代码维护较少。

2 个答案:

答案 0 :(得分:1)

  

使用Flume。 Flume没有内置文件源,这需要一个自定义源来推送文件。

嗯......不,那不对。 Flume有一个Spooling Directory Source可以达到您想要的高水平。

答案 1 :(得分:0)

看起来像Camel的几行代码。即from("file:/..").to("hdfs:..")加上一些初始化和项目设置。

不确定使用任何方法可以更轻松(更少的代码行)。

如果Camel中的HDFS options足够配置和灵活性,那么我猜这种方法是最好的。只需几个小时(甚至几分钟)就可以让一些测试用例启动并运行。