将JSON文件的HDFS目录转换为Parquet

时间:2019-01-03 13:44:27

标签: apache-spark hdfs parquet

我在HDFS上收集了大量的JSON记录,如下所示:

  

/年/月/日/小时.gz

其中压缩文件hour.gz的每一行都是一个JSON对象。

如何在保留相同目录结构的情况下将这些文件转换为.parquet文件?

0 个答案:

没有答案