使用预定义的折叠在Weka中进行交叉验证

时间:2014-04-01 15:21:42

标签: machine-learning weka cross-validation

我想在已经分成10倍的数据集上使用Weka运行10倍交叉验证训练/测试实验(即每个实例已经分配到折叠)。我知道如果你给Weka一个完整的数据集,它可以为你创建折叠并运行10倍CV,但有没有办法告诉它哪些实例应属于哪个折叠,除了手动将数据集拆分为10列车/ test设置并独立运行10个实验中的每一个?

由于

1 个答案:

答案 0 :(得分:3)

你会使用Java吗?这里给出了一个使用Java接口训练和评估分类器的简单示例,摘录如下: http://www.programcreek.com/2013/01/a-simple-machine-learning-example-in-java/

第一步是创建拆分:

// Do 10-split cross validation
Instances[][] split = crossValidationSplit(data, 10);

// Separate split into training and testing arrays
Instances[] trainingSplits = split[0];
Instances[] testingSplits = split[1];

然后进行典型的培训/评估:

// For each training-testing split pair, train and test the classifier
for (int i = 0; i < trainingSplits.length; i++) {
    Evaluation validation = classify(models[j], trainingSplits[i], testingSplits[i]);

    predictions.appendElements(validation.predictions());
}

相比之下,我之前的一些代码使用trainCV / testCV函数来获取这些实例集。您可以编写一个新函数,返回已知折叠的数据子集。

Instances.trainCV的源代码可能是如何构建实例集的一个很好的例子: http://grepcode.com/file/repo1.maven.org/maven2/nz.ac.waikato.cms.weka/weka-stable/3.6.7/weka/core/Instances.java

关键行是对copyInstances的调用。

copyInstances(0, train, first);
copyInstances(first + numInstForFold, train,
      numInstances() - first - numInstForFold);
return train;

也许也可以使用new Instances(java.lang.String name, java.util.ArrayList<Attribute> attInfo, int capacity)简单地创建一个空实例,并使用所有实例的超集中的Instances.get进行填充。

另一种方法是使用过滤器,如下面的摘录示例,当我训练具有相同分割的多个分类器时(在Matlab / java中):

filterRand = Randomize();
filterRange = RemoveRange();

%if the filterInst parameter is active, take a subsample of training
if doFilterTrain
    rangeStr = sprintf('%g-%g', 1, learnParams.trainSizeMax );
    filterRange.setInstancesIndices( rangeStr );
    filterRange.setInvertSelection( 1 );
end

if doFilterTrain
    filterRand.setInputFormat( instTrain );
    filterRange.setInputFormat( instTrain );

    instTrainSub = Filter.useFilter(instTrain, filterRand);
    instTrainSub = Filter.useFilter(instTrainSub, filterRange);
end
祝你好运!