使用java将大型本地文件移动到HDFS

时间:2014-04-11 10:11:38

标签: java hadoop hdfs

我的本​​地文件系统中存储了大约2000万个文件,每个文件5k代表一条推文。

存储如下:

  

/home/username/tweets/$tag/$year/$month/$day/$tweetid.txt

     

示例1:/home/username/tweets/SCP/2014/04/11/9989443342233.txt

     

示例1:/home/username/tweets/WDR/2014/02/08/5890321764568.txt

因此可以编写一个map reduce java程序,根据标签将某个标签下的所有推文移动到HDFS中的单个目录。

任何类似的例子?

1 个答案:

答案 0 :(得分:1)

https://blog.cloudera.com/blog/2009/02/the-small-files-problem/中所示,

首先制作序列文件,然后将其上传到HDFS。