我必须在我的群集上加载大量文件(+/- 500 000),这需要很长时间。 每个文件都是gzip格式,占用80Mb空间。
目前我使用while循环来加载我的文件,但你有一个最好的解决方案......
感谢您的帮助。
答案 0 :(得分:3)
你解释它的方式很难理解这个问题。
HDFS支持gzip压缩而不分割。由于您的文件大约为80MB,因此拆分对您来说不是一个大问题,只需确保使用128MB大的块大小。
关于文件上传,为什么不使用-put命令上传整个目录?
hadoop fs -put local/path/to/dir path/in/hdfs
会做到这一点。
答案 1 :(得分:1)
可能您可以查看PivotalHD的DataLoader,它使用更快的map job并行加载数据。请查看此链接PivotalHD Dataloader。
答案 2 :(得分:0)
您可以使用https://github.com/endgameinc/binarypig处的Binarypig的BuildSequenceFileFromDir