我的本地文件系统中存储了大约2000万个文件,每个文件5k代表一条推文。
存储如下:
/home/username/tweets/$tag/$year/$month/$day/$tweetid.txt
示例1:/home/username/tweets/SCP/2014/04/11/9989443342233.txt
示例1:/home/username/tweets/WDR/2014/02/08/5890321764568.txt
因此可以编写一个map reduce java程序,根据标签将某个标签下的所有推文移动到HDFS中的单个目录。
任何类似的例子?
答案 0 :(得分:1)
如https://blog.cloudera.com/blog/2009/02/the-small-files-problem/中所示,
首先制作序列文件,然后将其上传到HDFS。