我刚刚设置了h2o flow UI。我有一个带有以下标签的csv。
Label | Count
0 | 9340
1 | 400
2 | 349
我已导入文件并对其进行了解析。分割帧(按80:20的比例)后,我下载了2个csv文件以检查标签计数。
但是分裂并没有达到我的预期。
我期望将数据拆分如下:
Class | Expected 0.8 | Actual 0.8 | Expected 0.2 | Actual 0.2
0 | 7472 | 7418 | 1868 | 1882
1 | 320 | 610 | 80 | 159
2 | 279 | 15 | 69 | 5
如何将数据分成上面想要的期望值,以便可以将其用作训练和验证模型构建的框架?
答案 0 :(得分:0)
H2O-3的拆分框架选项不能提供精确的拆分。
H2O-3设计为使用概率拆分方法(而不是精确拆分)对大数据有效。例如,当指定0.75 / 0.25的分割时,H2O-3会产生测试/训练分割,其预期值为0.75 / 0.25,而不是精确的0.75 / 0.25。在小型数据集上,所得分割的大小将比在大数据上与预期值的偏差更大,在大数据上,它们将非常接近精确值。