我想检索每个实例在决策树或RandomForest中所采用的路径。 例如,我需要这样的输出:
# 1 1 3 4 8 NA NA
# 2 1 2 5 7 11 NA
# 3 1 3 4 9 10 13
# 4 1 3 4 8 NA NA
# etc
这意味着实例#1从节点1,3,4传递路径并在终端节点8中结束,依此类推。很明显,某些情况下的路径长度比其他情况短。
我使用了decision_path
,但它提供了一个我无法理解的稀疏矩阵并找到了这样的路径。即使我无法读取输出。它是Iris
数据库的示例代码:
from sklearn.datasets import load_iris
iris = load_iris()
import numpy as np
ytrain = iris.target
xtrain = iris.data
from sklearn.tree import DecisionTreeClassifier
dtree = DecisionTreeClassifier()
fitted_tree = dtree.fit(X=xtrain,y=ytrain)
predictiontree = dtree.predict(xtrain)
fitted_tree.decision_path(xtrain)
输出是这样的:
<150x17 sparse matrix of type '<class 'numpy.int64'>'
with 560 stored elements in Compressed Sparse Row format>
请帮我制作一个矩阵,比如我在顶部提到的矩阵。我不知道如何处理稀疏矩阵。
答案 0 :(得分:0)
感谢@Patrick Artner的评论,这就是答案:
dense_matrix = fitted_tree.decision_path(xtrain).todense()
它会输出
#matrix([[1, 1, 0, ..., 0, 0, 0],
# [1, 1, 0, ..., 0, 0, 0],
# [1, 1, 0, ..., 0, 0, 0],
# ...,
# [1, 0, 1, ..., 0, 0, 1],
# [1, 0, 1, ..., 0, 0, 1],
# [1, 0, 1, ..., 0, 0, 1]], dtype=int64)
第一行是第一个实例,依此类推。例如,这是第一行[1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
,这意味着第一个实例通过第1和第2个节点,而不会传递其他节点。
答案 1 :(得分:0)
或者,如果您需要对每个样本的决策路径进行更多控制,也可以执行以下操作:
decision_paths = fitted_tree.decision_path(xtrain)
decision_path_list = list(decision_paths.toarray())
for path in decision_path_list:
*#Analyse different paths here*