我有一个tar存档(大约40 GB),它有许多子文件夹,我的数据驻留在这些子文件夹中。 结构是:文件夹 - >子文件夹 - > json.bz2文件。 TAR文件:
Total size: ~ 40GB
Number of inner .bz2 files (arranged in folders): 50,000
Size of one .bz2 file: ~700kb
Size of one extracted JSON file: ~6 MB.
我必须将json文件加载到HDFS集群中。我试图在我的本地目录中手动提取它,但我的空间不足。我打算将存档直接加载到HDFS中,然后解压缩它。但我不知道这是否是解决问题的好方法。由于我是Hadoop的新手,任何指针都会有所帮助。