Question

我已在我的数据集上训练了一个RandomForestClassifier，以预测来自文本正文的8个不同主题。对于给定的示例

，数据集如下所示

X_train = [[0,0,0,0,0,1,0,0,1,0],
           [0,1,0,0,0,0,0,0,0,1],
           [1,0,0,0,0,0,0,0,0,1]]
          # This is a bag of word

y_train = ["A", "B", "C"] 
# 8 categories in total

如果我运行以下代码

rdf = RandomForestClassifier(n_estimators = 100)
rdf_fitted = rdf.fit(X_train, y_train)
print rdf_fitted.predict(x_test[0])
print rdf_fitted.predict_proba(x_test[0])
print rdf_fitted.classes_

我得到一个奇怪的结果

["B"]
[0.7, 0.2, 0.1]
["A","B","C"...]

基本上，预测标签（在这种情况下为“B”）与predict_proba预测不匹配，这表明“A”概率最高。

任何想法导致了什么？

Answer 1

此问题是由于我在Jupyter Notebook设置中出现的错误导致的

sklearn predict_proba不会对类标签进行macthing

1 个答案: