Question

我必须在我的群集上加载大量文件（+/- 500 000），这需要很长时间。每个文件都是gzip格式，占用80Mb空间。

目前我使用while循环来加载我的文件，但你有一个最好的解决方案......

感谢您的帮助。

Answer 1

你解释它的方式很难理解这个问题。

HDFS支持gzip压缩而不分割。由于您的文件大约为80MB，因此拆分对您来说不是一个大问题，只需确保使用128MB大的块大小。

关于文件上传，为什么不使用-put命令上传整个目录？

hadoop fs -put local/path/to/dir path/in/hdfs

会做到这一点。

Answer 2

可能您可以查看PivotalHD的DataLoader，它使用更快的map job并行加载数据。请查看此链接PivotalHD Dataloader。

Answer 3

您可以使用https://github.com/endgameinc/binarypig处的Binarypig的BuildSequenceFileFromDir