我已经能够在数据集上创建RandomForestClassifier。
clf = RandomForestClassifier(n_estimators=100, random_state = 101)
然后我可以将其用于测试数据,如下所示:
prediction = pd.DataFrame(clf.predict(x)) # x = Matrix of predictor values
所以我的问题是,如何在Python之外测试clf.predict,如何查看正在使用的值,以及如何“手动”测试它,例如,如果您在回归中获得beta,则可以在Excel中使用这些值并复制模型。如何在Python中使用RandomForests做到这一点?
还有与Rsquared类似的指标来测试模型的复制能力吗?
谢谢!
答案 0 :(得分:2)
RandomForestClassifier
是一棵树木的集合,这意味着它由多棵树木组成。
为了能够测试这些树,我建议在Python本身中进行测试,您可以访问分类器estimators_
属性中的所有树,然后使用export_graphviz
将它们导出为图sklearn.tree
模块。
如果坚持要导出树,则需要导出每棵树组成的所有规则。为此,您可以按照sklearn文档中的this说明进行操作。
关于指标,对于分类问题,您可以使用accuracy_score
模块中的sklearn.metrics
。