如何使用MapReduce程序隔离基于日期的目录中的文件?

时间:2014-12-26 12:02:06

标签: java hadoop mapreduce

我有大量number(~100 thousands)小日志文件(文件名中包含timestamp),
 例如data-1412719255508-02174-ip-10-1-1-59-rowid.log
 现在我想将这些文件放在基于日期的目录中  例如,时间戳对应于日期2014-10-06的日志文件应该进入/raw/logs/2014-10-06/目录,依此类推。
 此外,这些文件很小size(~1-10mb),这也是我想merge这些文件的原因。

为了这个目的,我想用Java编写一个map reduce程序。我正在寻找一些想法或例子。

0 个答案:

没有答案