应用错误收集

使用java将大型本地文件移动到HDFS

时间：2014-04-11 10:11:38

标签： java hadoop hdfs

我的本地文件系统中存储了大约2000万个文件，每个文件5k代表一条推文。

存储如下：

/home/username/tweets/$tag/$year/$month/$day/$tweetid.txt

示例1：/home/username/tweets/SCP/2014/04/11/9989443342233.txt

示例1：/home/username/tweets/WDR/2014/02/08/5890321764568.txt

因此可以编写一个map reduce java程序，根据标签将某个标签下的所有推文移动到HDFS中的单个目录。

任何类似的例子？

1 个答案:

答案 0 :(得分：1)

如https://blog.cloudera.com/blog/2009/02/the-small-files-problem/中所示，

首先制作序列文件，然后将其上传到HDFS。