json - 如何获取bz2文件的内容 - Hadoop

我有一个tar存档（大约40 GB），它有许多子文件夹，我的数据驻留在这些子文件夹中。结构是：文件夹 - ＆gt;子文件夹 - ＆gt; json.bz2文件。 TAR文件：

Total size: ~ 40GB
Number of inner .bz2 files (arranged in folders): 50,000
Size of one .bz2 file: ~700kb
Size of one extracted JSON file: ~6 MB.

我必须将json文件加载到HDFS集群中。我试图在我的本地目录中手动提取它，但我的空间不足。我打算将存档直接加载到HDFS中，然后解压缩它。但我不知道这是否是解决问题的好方法。由于我是Hadoop的新手，任何指针都会有所帮助。