我在1个文件中有许多h5py数据集,其中类标签是数据集名称,形状为(20000,250000
),float64
使用gzip
压缩{/ 1}}
社区如何建议我使用dask启用随机forrest训练而无需将整个数据集加载到内存中?
我正在使用高内核,高内存实例。
我应该提到我有3个班级标签。
更新:
我当前加载数据的想法是为每个类标签创建一个dask数组,其形状为(20000,250000)
,然后将3个数组连接在一起。如果我这样做,我将能够使用评论中提到的分布式随机forrest,然后创建所需的较小的训练和测试数据框?