我已在我的数据集上训练了一个RandomForestClassifier,以预测来自文本正文的8个不同主题。对于给定的示例
,数据集如下所示X_train = [[0,0,0,0,0,1,0,0,1,0],
[0,1,0,0,0,0,0,0,0,1],
[1,0,0,0,0,0,0,0,0,1]]
# This is a bag of word
y_train = ["A", "B", "C"]
# 8 categories in total
如果我运行以下代码
rdf = RandomForestClassifier(n_estimators = 100)
rdf_fitted = rdf.fit(X_train, y_train)
print rdf_fitted.predict(x_test[0])
print rdf_fitted.predict_proba(x_test[0])
print rdf_fitted.classes_
我得到一个奇怪的结果
["B"]
[0.7, 0.2, 0.1]
["A","B","C"...]
基本上,预测标签(在这种情况下为“B”)与predict_proba
预测不匹配,这表明“A”概率最高。
任何想法导致了什么?
答案 0 :(得分:0)
此问题是由于我在Jupyter Notebook设置中出现的错误导致的