H2o Flow UI:拆分框架如何用于多类数据集?

时间:2019-07-08 05:28:08

标签: split dataset h2o

我刚刚设置了h2o flow UI。我有一个带有以下标签的csv。

Label | Count
0     | 9340
1     | 400
2     | 349

我已导入文件并对其进行了解析。分割帧(按80:20的比例)后,我下载了2个csv文件以检查标签计数。

但是分裂并没有达到我的预期。

我期望将数据拆分如下:

Class | Expected 0.8 | Actual 0.8 | Expected 0.2 | Actual 0.2
0     | 7472         | 7418       | 1868         | 1882
1     | 320          | 610        | 80           | 159
2     | 279          | 15         | 69           | 5

如何将数据分成上面想要的期望值,以便可以将其用作训练和验证模型构建的框架?

1 个答案:

答案 0 :(得分:0)

H2O-3的拆分框架选项不能提供精确的拆分。

H2O-3设计为使用概率拆分方法(而不是精确拆分)对大数据有效。例如,当指定0.75 / 0.25的分割时,H2O-3会产生测试/训练分割,其预期值为0.75 / 0.25,而不是精确的0.75 / 0.25。在小型数据集上,所得分割的大小将比在大数据上与预期值的偏差更大,在大数据上,它们将非常接近精确值。