我已经开始使用scikit-learn决策树,到目前为止它运行得很好但我需要做的一件事是检索叶节点的样本Y值集,尤其是在运行预测时。给出输入特征向量X,我想知道叶节点处的相应Y值的集合而不仅仅是回归值,这些值是这些值的平均值(或中值)。当然,人们希望样本均值具有较小的方差,但我确实想要提取实际的Y值集并进行一些统计/创建PDF。我使用过这样的代码how to extract the decision rules from scikit-learn decision-tree? 要打印决策树,但输出值为'是表示均值的单个浮点数。我有一个大型数据集,因此将叶片大小限制为例如100,我想访问这100个值......
答案 0 :(得分:0)
另一个解决方案是使用sklearn DecisionTreeRegressor对象的(未记录的?)特性,即.tree.impurity 它返回每个叶子的值的标准偏差