如何构造dask流到随机的forrest分类器

时间:2016-08-25 07:03:59

标签: classification h5py dask

我在1个文件中有许多h5py数据集,其中类标签是数据集名称,形状为(20000,250000),float64使用gzip压缩{/ 1}}

社区如何建议我使用dask启用随机forrest训练而无需将整个数据集加载到内存中?

我正在使用高内核,高内存实例。

我应该提到我有3个班级标签。

更新: 我当前加载数据的想法是为每个类标签创建一个dask数组,其形状为(20000,250000),然后将3个数组连接在一起。如果我这样做,我将能够使用评论中提到的分布式随机forrest,然后创建所需的较小的训练和测试数据框?

0 个答案:

没有答案