Question

我的目的是通过特定类的每个样本的排序概率绘制PR曲线。但是，我发现当我使用两个不同的标准数据集时，svm的predict_proba（）获得的概率有两种不同的行为：虹膜和数字。

第一种情况使用下面的python代码用“iris”情况进行评估，并且它合理地使得该类获得最高概率。

D = datasets.load_iris()
clf = SVC(kernel=chi2_kernel, probability=True).fit(D.data, D.target)
output_predict = clf.predict(D.data)
output_proba = clf.predict_proba(D.data)
output_decision_function = clf.decision_function(D.data)
output_my = proba_to_class(output_proba, clf.classes_)

print D.data.shape, D.target.shape
print "target:", D.target[:2]
print "class:", clf.classes_
print "output_predict:", output_predict[:2]
print "output_proba:", output_proba[:2]

接下来，它产生如下输出。显然，每个样本的最高概率与predict（）的输出匹配：样本＃1为0.97181088，样本＃2为0.96961523。

(150, 4) (150,)
target: [0 0]
class: [0 1 2]
output_predict: [0 0]
output_proba: [[ 0.97181088  0.01558693  0.01260218]
[ 0.96961523  0.01702481  0.01335995]]

然而，当我使用以下代码将数据集更改为“数字”时，概率揭示了一个反现象，即每个样本的最低概率支配predict（）的输出标签，样本＃1的概率为0.00190932，样品＃2为0.00220549。

D = datasets.load_digits()

输出：

(1797, 64) (1797,)
target: [0 1]
class: [0 1 2 3 4 5 6 7 8 9]
output_predict: [0 1]
output_proba: [[ 0.00190932  0.11212957  0.1092459   0.11262532      0.11150733  0.11208733
0.11156622  0.11043403  0.10747514  0.11101985]
[ 0.10991574  0.00220549  0.10944998  0.11288081  0.11178518   0.11234661
0.11182221  0.11065663  0.10770783  0.11122952]]

我已阅读this post，它引出了使用线性SVM和decision_function（）的解决方案。但是，由于我的任务，我仍然需要关注SVM的卡方内核。

任何解决方案？

Answer 1

作为documentation states，无法保证|和subj = re.match(r"(.*)subj=(.*?)\|(.*)", s).group(2)会在SVC上提供一致的结果。您只需使用predict_proba即可。对于线性和内核SVM都是如此。

混淆scikit-learn svm的predict_proba的概率

1 个答案: