分成火车和测试时获取H2O数据帧的行索引

时间:2017-11-16 04:20:32

标签: python dataframe indexing h2o

我是H2O的新手。到目前为止,对于列车测试分裂,我使用了sklearn的StratifiedKFold()。

skf = StratifiedKFold(n_splits=n, random_state=None, shuffle=False)
for train_index, test_index in skf.split(X, y):               
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]

我需要索引以便稍后进行一些处理。

在H2O中,我无法弄清楚如何在进行交叉验证时获取索引。从我通过视频和博客收集的内容来看,这就是我们在H2O中进行简历的方式:

gbm_model = H2OGradientBoostingEstimator(model_id = 'gbm_model',nfolds=5)

如何获得每个折叠的列车和测试指标?

另外,如何在进行简单拆分时获取索引?

data_split = data.split_frame(ratios=[0.8],seed = 1234)
train_df = data_split[0]
test_df = data_split[1]

如何获取进入训练和测试的索引?

1 个答案:

答案 0 :(得分:1)

您可以使用stratified_kfold_column(n_folds=3, seed=-1)stratified_split(test_frac=0.2, seed=-1)创建一个包含拆分的列,您可以使用这些拆分进行拆分。

docs

中详细了解这些内容