应用错误收集

我在1个文件中有许多h5py数据集，其中类标签是数据集名称，形状为(20000,250000），float64使用gzip压缩{/ 1}}

社区如何建议我使用dask启用随机forrest训练而无需将整个数据集加载到内存中？

我正在使用高内核，高内存实例。

我应该提到我有3个班级标签。

更新：我当前加载数据的想法是为每个类标签创建一个dask数组，其形状为(20000,250000)，然后将3个数组连接在一起。如果我这样做，我将能够使用评论中提到的分布式随机forrest，然后创建所需的较小的训练和测试数据框？