我正在libSVM
使用Python
。
我觉得这个问题。
在使用无序索引列车数据时,我得到了不期望的结果。
例如,某些未归类的文章的操作集的结果都是相同的,例如:
[1,1,1,1,1,...,1]
这是火车数据的一部分。
4 133:1 25806:1 85:1 107:1 25806:1 12337:1 136:1 16943:1 15259:1 34:1 2019:1 173:1 1070:1 71:1 357:1 5518 :1 178:1 179:1 5:1 12337:1 120:1 39912:1 120:1 2019:1 173:1 1070:1 71:1 357:1 5518:1 178:1 179:1 5:1 12337:1 6409:1 87:1 189:1 6410:1 133:1 25806:1 85:1 107:1 25806:1 12337:1 136:1 16943:1 15259:1 34:1 2019:1 173: 1 1070:1 71:1 357:1 5518:1 178:1 179:1 5:1 12337:1 120:1 39912:1 1771:1 9:1 10:1 11:1 43188:1 27:1 6707 :1 173:1 15:1 883:1 29:1 67:1 698:1 58:1 25806:1 5462:1 5511:1 34:1 16943:1 15259:1 224:1 128:1 167:1 312:1 1062:1 4140:1 184:1 71:1 357:1 193:1 907:1 167:1 698:1 564:1 11:1 1149:1 34:1 30261:1 10899:1 217: 1 860:1 58:1 276:1 5:1 6088:1 398:1 177:1 178:1 179:1 5:1 25806:1 29:1 181:1 84:1 12337:1 84:1 58 :1 665:1 357:1 897:1 650:1 178:1 4:1 5:1 1195:1 29:1 80:1 17:1 186:1 10:1 11:1 7495:1 167:1 22073:1 5:1 230:1 29:1 179:1 51:1 1874:1 167:1 22073:1 5:1 230:1 17:1 179:1 80:1 867:1 15:1 324: 1 185:1 350:1 2914:1 5:1 84:1 39912:1
根据上述数据,您可以了解索引未订购。
我认为这是问题所在。这种情况还有其他原因吗?
PS。火车meta(y)分发:
1 1:1 2:1 3:1 4:1 5:1 2:1 6:1 7:1 8:1 9:1 10:1 11:1 12:1 13:1 14:1 15:1 16:1 17:1 18:1 19:1 20:1 21:1 22:1 11:1 1:1 2:1 23:1 24:1 25:1 26: 1 27:1 28:1 29:1 30:1 31:1 32:1 8:1 15:1 33:1 17:1 21:1 22:1 34:1 35:1 17:1 36:1 10 :1 11:1 37:1 33:1 38:1 39:1 40:1 41:1 42:1 43:1 44:1 45:1 46:1 47:1 32:1 48:1 49:1 50:1 15:1 16:1 45:1 51:1 52:1
2 309:1 310:1 217:1 968:1 4092:1 5:1 13544:1 32:1 13545:1 13546:1 13544:1 1064:1 13547:1 7287:1 2225:1 13548:1 2819:1 71:1 1269:1 132:1 13549:1 419:1 4698:1 87:1 6013:1 27:1 294:1 9:1 10:1 11:1 324: 1 58:1 309:1 310:1 62:1 5459:1 350:1 1460:1 15:1 6026:1 5:1 13544:1 1949:1 185:1 186:1 10:1 32:1 439 :1 139:1
..
..
谢谢!
答案 0 :(得分:0)
理论上如果要素元素没有被排序,只要它们被正确标记就不会有问题,但是必须通过libsvm代码来确保这种行为(文档中没有任何内容禁止这样做)。
尽管如此,问题可能是类标签。在二进制分类中,训练数据应具有以下形式:
0 1:xx 4:xx 3:xx ...
0 1:xx 2:xx 9:xx ...
1 1:xx 5:xx 13:xx ...
1 2:xx 3:xx 6:xx ...
第一个数字是类标签。每个类需要或多或少相同数量的功能集才能获得最佳结果。