sklearn predict_proba不会对类标签进行macthing

时间:2017-09-22 10:02:09

标签: python machine-learning scikit-learn classification

我已在我的数据集上训练了一个RandomForestClassifier,以预测来自文本正文的8个不同主题。对于给定的示例

,数据集如下所示
X_train = [[0,0,0,0,0,1,0,0,1,0],
           [0,1,0,0,0,0,0,0,0,1],
           [1,0,0,0,0,0,0,0,0,1]]
          # This is a bag of word

y_train = ["A", "B", "C"] 
# 8 categories in total

如果我运行以下代码

rdf = RandomForestClassifier(n_estimators = 100)
rdf_fitted = rdf.fit(X_train, y_train)
print rdf_fitted.predict(x_test[0])
print rdf_fitted.predict_proba(x_test[0])
print rdf_fitted.classes_

我得到一个奇怪的结果

["B"]
[0.7, 0.2, 0.1]
["A","B","C"...]

基本上,预测标签(在这种情况下为“B”)与predict_proba预测不匹配,这表明“A”概率最高。

任何想法导致了什么?

1 个答案:

答案 0 :(得分:0)

此问题是由于我在Jupyter Notebook设置中出现的错误导致的