将10TB的“大数据”减少到合理的水平

时间:2018-08-23 22:18:20

标签: pyspark hdfs bigdata hdf5 hdf

我在30个h5文件中有10TB的数据。我正在使用PySpark进行一些统计分析,然后进行机器学习。

将所有h5文件合并为最佳文件格式是什么,以便我可以在群集的内存中使用它?

0 个答案:

没有答案