标签: apache-spark hdfs parquet
我在HDFS上收集了大量的JSON记录,如下所示:
/年/月/日/小时.gz
其中压缩文件hour.gz的每一行都是一个JSON对象。
如何在保留相同目录结构的情况下将这些文件转换为.parquet文件?