标签: pyspark hdfs bigdata hdf5 hdf
我在30个h5文件中有10TB的数据。我正在使用PySpark进行一些统计分析,然后进行机器学习。
将所有h5文件合并为最佳文件格式是什么,以便我可以在群集的内存中使用它?