Question

我想在已经分成10倍的数据集上使用Weka运行10倍交叉验证训练/测试实验（即每个实例已经分配到折叠）。我知道如果你给Weka一个完整的数据集，它可以为你创建折叠并运行10倍CV，但有没有办法告诉它哪些实例应属于哪个折叠，除了手动将数据集拆分为10列车/ test设置并独立运行10个实验中的每一个？

由于

Answer 1

你会使用Java吗？这里给出了一个使用Java接口训练和评估分类器的简单示例，摘录如下： http://www.programcreek.com/2013/01/a-simple-machine-learning-example-in-java/

第一步是创建拆分：

// Do 10-split cross validation
Instances[][] split = crossValidationSplit(data, 10);

// Separate split into training and testing arrays
Instances[] trainingSplits = split[0];
Instances[] testingSplits = split[1];

然后进行典型的培训/评估：

// For each training-testing split pair, train and test the classifier
for (int i = 0; i < trainingSplits.length; i++) {
    Evaluation validation = classify(models[j], trainingSplits[i], testingSplits[i]);

    predictions.appendElements(validation.predictions());
}

相比之下，我之前的一些代码使用trainCV / testCV函数来获取这些实例集。您可以编写一个新函数，返回已知折叠的数据子集。

Instances.trainCV的源代码可能是如何构建实例集的一个很好的例子： http://grepcode.com/file/repo1.maven.org/maven2/nz.ac.waikato.cms.weka/weka-stable/3.6.7/weka/core/Instances.java

关键行是对copyInstances的调用。

copyInstances(0, train, first);
copyInstances(first + numInstForFold, train,
      numInstances() - first - numInstForFold);
return train;

也许也可以使用new Instances(java.lang.String name, java.util.ArrayList<Attribute> attInfo, int capacity)简单地创建一个空实例，并使用所有实例的超集中的Instances.get进行填充。

另一种方法是使用过滤器，如下面的摘录示例，当我训练具有相同分割的多个分类器时（在Matlab / java中）：

filterRand = Randomize();
filterRange = RemoveRange();

%if the filterInst parameter is active, take a subsample of training
if doFilterTrain
    rangeStr = sprintf('%g-%g', 1, learnParams.trainSizeMax );
    filterRange.setInstancesIndices( rangeStr );
    filterRange.setInvertSelection( 1 );
end

if doFilterTrain
    filterRand.setInputFormat( instTrain );
    filterRange.setInputFormat( instTrain );

    instTrainSub = Filter.useFilter(instTrain, filterRand);
    instTrainSub = Filter.useFilter(instTrainSub, filterRange);
end

祝你好运！

使用预定义的折叠在Weka中进行交叉验证

1 个答案: