hadoop的优化放置了很多小文件

时间:2013-10-10 11:41:28

标签: hadoop put

我必须在我的群集上加载大量文件(+/- 500 000),这需要很长时间。 每个文件都是gzip格式,占用80Mb空间。

目前我使用while循环来加载我的文件,但你有一个最好的解决方案......

感谢您的帮助。

3 个答案:

答案 0 :(得分:3)

你解释它的方式很难理解这个问题。

HDFS支持gzip压缩而不分割。由于您的文件大约为80MB,因此拆分对您来说不是一个大问题,只需确保使用128MB大的块大小。

关于文件上传,为什么不使用-put命令上传整个目录?

hadoop fs -put local/path/to/dir path/in/hdfs 

会做到这一点。

答案 1 :(得分:1)

可能您可以查看PivotalHD的DataLoader,它使用更快的map job并行加载数据。请查看此链接PivotalHD Dataloader

答案 2 :(得分:0)

您可以使用https://github.com/endgameinc/binarypig处的Binarypig的BuildSequenceFileFromDir