我有0%的正确预测,也许是错误的设置?

时间:2016-04-21 17:46:00

标签: machine-learning mulan

我使用木兰库进行多标签分类。 我使用的学习者是RAkEL学习者。我遵循了花木兰的指示: http://mulan.sourceforge.net/starting.html

我的标签xml文件:

@relation predict_label
@attribute 12345 numeric
@attribute A numeric
@attribute B numeric
@attribute C numeric
@attribute D numeric
@attribute E numeric

@attribute 1 {0, 1}
@attribute 2 {0, 1}
@attribute 3 {0, 1}
@attribute 4 {0, 1}
@attribute 5 {0, 1}

@data
2,3,2,2,2,2,1,0,0,0,0

2,2,3,2,2,2,0,1,0,0,0

2,2,2,3,2,2,0,0,1,0,0

2,2,2,2,3,2,0,0,0,1,0

2,2,2,2,2,3,0,0,0,0,1

我的训练数据文件:

@relation catalog_ml
@attribute 12345 numeric
@attribute A numeric
@attribute B numeric
@attribute C numeric
@attribute D numeric
@attribute E numeric

@attribute 1 {0, 1}
@attribute 2 {0, 1}
@attribute 3 {0, 1}
@attribute 4 {0, 1}
@attribute 5 {0, 1}

@data
2,2,2,2,2,3,0,0,0,0,0

我的测试数据文件:

Bipartion: [false, false, false, false, false] Confidences: [0.0, 0.0, 0.0, 0.0, 0.0] Ranking: [5, 4, 3, 2, 1]Predicted values: null

执行预测后的结果:

            setlocale(LC_ALL,"es_ES");                          

我的问题是:
1。有人可以帮我验证我做错了什么吗?
2。据我了解,排名[5,4,3,2,1]是xml标签文件中标签的位置。我的理解是否正确?为什么排名顺序不是1到5 ......?
3。预测值是否为null,因为这是一个多标签分类测试?否则哪个学习者不会将预测值返回null?

非常感谢你。任何建议或评论都受到欢迎。

1 个答案:

答案 0 :(得分:0)

我对木兰也很新,但我可以说以下。

  
      
  1. 有人可以帮我验证我做错了吗?
  2.   

你特别想做错事。您只是没有给分类器足够的信息来分类您的测试样本。我在训练集中添加了一些随机线

@relation predict_label
@attribute 12345 numeric
@attribute A numeric
@attribute B numeric
@attribute C numeric
@attribute D numeric
@attribute E numeric

@attribute 1 {0, 1}
@attribute 2 {0, 1}
@attribute 3 {0, 1}
@attribute 4 {0, 1}
@attribute 5 {0, 1}

@data
2,3,2,2,2,2,1,0,0,0,0
2,2,3,2,2,2,0,1,0,0,0
2,2,2,3,2,2,0,0,1,0,0
2,2,2,2,3,2,0,0,0,1,0
2,2,2,2,2,3,0,0,0,0,1
2,2,2,2,2,2,1,0,1,1,0
1,2,3,4,6,7,0,0,0,1,1
5,4,3,2,1,0,1,1,1,1,1
9,8,7,5,4,3,0,1,1,0,0
1,2,3,2,1,0,0,1,1,1,1
1,5,6,8,9,0,1,1,0,0,1

并得到以下结果:

Bipartion: [false, false, false, false, false] Confidences: [0.16666666666666666, 0.0, 0.0, 0.16666666666666666, 0.3333333333333333] Ranking: [3, 5, 4, 2, 1]Predicted values: null

Bipartition在这里是预测值,而置信度是关于分类器对于他在这里所提出的问题有多自信的价值。确实不是很自信。但那是因为"坏"训练数据集。

  
      
  1. 据我所知,排名[5,4,3,2,1]是xml标签文件中标签的位置。我的理解是否正确?为什么排名顺序不是1到5 ......?
  2.   

排名只显示分类器最有信心的标签。因为他们都是" 0"它们以某种方式列出"随机"或者排序函数没有信息的方式。正如你在我的例子中所看到的那样,它是有信心的。

  

预测值是否为null,因为这是一个多标签分类测试?否则哪个学习者不会将预测值返回null?

我实际上并不知道它们的用途。如果有人对这个问题有答案,我也会很高兴。

修改

如果您将其中一个训练集行复制到测试testdataset中,您将获得不同的Bipartition值而不是false。