WEKA分类可能性

时间:2012-08-14 20:54:34

标签: machine-learning weka

我想知道WEKA是否有办法为分类输出一些“最佳猜测”。

我的场景是:我使用交叉验证对数据进行分类,然后在weka的输出上得到类似的结果:这些是对此实例进行分类的3个最佳猜测。我想要的是,即使一个实例没有被正确分类,我也得到了该实例的3或5个最佳猜测的输出。

示例:

课程:A,B,C,D,E 实例:1 ... 10

输出将是: 实例1 90%可能是A级,75%可能是B级,60%喜欢C级..

感谢。

4 个答案:

答案 0 :(得分:6)

Weka的API有一个名为Classifier.distributionForInstance()的方法可用于获取分类预测分布。然后,您可以通过降低概率来对分布进行排序,以获得前N个预测。

下面是打印出的函数:(1)测试实例的地面实况标签; (2)来自classifyInstance()的预测标签; (3)来自distributionForInstance()的预测分布。我在J48中使用了它,但它应该与其他分类器一起使用。

输入参数是序列化模型文件(您可以在模型训练阶段创建并应用-d选项)和ARFF格式的测试文件。

public void test(String modelFileSerialized, String testFileARFF) 
    throws Exception
{
    // Deserialize the classifier.
    Classifier classifier = 
        (Classifier) weka.core.SerializationHelper.read(
            modelFileSerialized);

    // Load the test instances.
    Instances testInstances = DataSource.read(testFileARFF);

    // Mark the last attribute in each instance as the true class.
    testInstances.setClassIndex(testInstances.numAttributes()-1);

    int numTestInstances = testInstances.numInstances();
    System.out.printf("There are %d test instances\n", numTestInstances);

    // Loop over each test instance.
    for (int i = 0; i < numTestInstances; i++)
    {
        // Get the true class label from the instance's own classIndex.
        String trueClassLabel = 
            testInstances.instance(i).toString(testInstances.classIndex());

        // Make the prediction here.
        double predictionIndex = 
            classifier.classifyInstance(testInstances.instance(i)); 

        // Get the predicted class label from the predictionIndex.
        String predictedClassLabel =
            testInstances.classAttribute().value((int) predictionIndex);

        // Get the prediction probability distribution.
        double[] predictionDistribution = 
            classifier.distributionForInstance(testInstances.instance(i)); 

        // Print out the true label, predicted label, and the distribution.
        System.out.printf("%5d: true=%-10s, predicted=%-10s, distribution=", 
                          i, trueClassLabel, predictedClassLabel); 

        // Loop over all the prediction labels in the distribution.
        for (int predictionDistributionIndex = 0; 
             predictionDistributionIndex < predictionDistribution.length; 
             predictionDistributionIndex++)
        {
            // Get this distribution index's class label.
            String predictionDistributionIndexAsClassLabel = 
                testInstances.classAttribute().value(
                    predictionDistributionIndex);

            // Get the probability.
            double predictionProbability = 
                predictionDistribution[predictionDistributionIndex];

            System.out.printf("[%10s : %6.3f]", 
                              predictionDistributionIndexAsClassLabel, 
                              predictionProbability );
        }

        o.printf("\n");
    }
}

答案 1 :(得分:2)

我不知道你是否能够原生,但你可以获得每个课程的概率,对它们进行排序并选择前三个。

你想要的函数是distributionForInstance(Instance instance),它返回double[]给出每个类的概率。

答案 2 :(得分:0)

不一般。您想要的信息不适用于所有分类器 - 在大多数情况下(例如对于决策树),决策很明确(尽管可能不正确),没有置信度值。您的任务需要能够处理不确定性的分类器(例如天真的贝叶斯分类器)。

从技术上讲,最简单的方法是训练模型,然后对单个实例进行分类,Weka应该为其提供所需的输出。一般来说,你当然也可以为实例组做这件事,但我不认为Weka提供了开箱即用的功能。您可能必须自定义代码或通过API使用它(例如在R中)。

答案 3 :(得分:0)

当你计算实例的概率时,你究竟是怎么做到的?

我已经为新实例here发布了我的PART规则和数据,但就手动计算而言,我不太确定如何做到这一点!感谢

编辑:现在计算:

private float [] getProbDist(String split){

//接受诸如(52/2)之类的东西,意味着52个实例被正确分类,2个被错误分类。

    if(prob_dis.length > 2)
        return null;

    if(prob_dis.length == 1){
        String temp = prob_dis[0];
        prob_dis = new String[2];
        prob_dis[0] = "1";
        prob_dis[1] = temp; 
    }

    float p1 = new Float(prob_dis[0]);
    float p2 = new  Float(prob_dis[1]);
    // assumes two tags
    float[] tag_prob = new float[2];

    tag_prob[1] = 1 - tag_prob[1];
    tag_prob[0] = (float)p2/p1;

// returns double[] as being the probabilities

return tag_prob;    
}