应用错误收集

我是决策树的新手，所以可能这些都是微不足道的问题。

决策树：

根据scikit doc（http://scikit-learn.org/stable/modules/tree.html），“predict_proba”函数返回每个类的概率，这是叶子中同一类的训练样本的分数。究竟是什么意思。

随机森林分类器：

在随机森林分类器中采用替换（自举）样本的优势是什么？它提供了多于Pasting的额外好处，即获取数据集的随机子集（http://scikit-learn.org/stable/modules/ensemble.html）
scikit随机林分类器中有一个参数为“bootstrap_features”（使用或不使用替换绘制要素）。用替换绘制特征究竟是什么意思。根据我的理解，在种植树时，您不能再使用相同的功能。那么更换一个功能究竟意味着什么。
从随机森林分类器学习变量重要性背后的直觉是什么。

DT

根据scikit doc（http://scikit-learn.org/stable/modules/tree.html），“predict_proba”函数返回每个类的概率，这是叶子中同一类的训练样本的分数。究竟是什么意思。

如果你没有限制地种植你的树 - 这意味着什么，预测proba将总是输出100％。但是，如果你以某种方式限制树的大小（例如通过max_depth），那么一些叶子实际上将最终得到来自不同类的样本，然后预测proba，如果分类在这样的叶子中完成，则返回每个类的概率与该叶中的每个类样本成比例。例如，你得到一个叶子，其中3个样本来自1级，2个来自2级，然后如果你最终在这个叶子中输出[0.6 0.4]（3 /（3 + 2）= 3/5 = 0.6 = 60％是你应该分配1级的概率，2 /（3 + 2）= 2/5 = 0.4 = 40％的2级。

RF 1

在随机森林分类器中采用替换（自举）样本的优势是什么？与Pasting相比，它提供了哪些额外的好处，即获取数据集的随机子集（http://scikit-learn.org/stable/modules/ensemble.html）

它使您的训练集大小与原始训练集相同，因此您可以或多或少地使用与单个树相同的超参数范围。此外，这使得训练集更加多样化（因为您对一些样本进行了人工“提升”，这些样本被多次绘制）。它还具有更好的统计特性，从而可以更好地估计估计量的属性（例如其泛化能力）

RF 2

scikit随机林分类器中有一个参数为“bootstrap_features”（使用或不使用替换绘制要素）。用替换绘制特征究竟是什么意思。根据我的理解，在种植树时，您不能再使用相同的功能。那么更换一个功能究竟是什么意思。

No, there is not

class sklearn.ensemble.RandomForestClassifier（n_estimators = 10， criterion ='gini'，max_depth = None，min_samples_split = 2， min_samples_leaf = 1，min_weight_fraction_leaf = 0.0，max_features ='auto'， max_leaf_nodes =无， bootstrap = True ，oob_score = False，n_jobs = 1， random_state =无，verbose = 0，warm_start = False，class_weight =无

也许你的意思是通用Bagging？然后，您可以多次使用每个功能。

RF 3

从随机森林分类器学习变量重要性背后的直觉是什么。

这只是衡量树中每个要素使用多少样本的一个度量标准，因此 - 如果从数据集中删除此要素，分数越低，丢失的越少。您可以通过各种方式使用它，包括功能选择，数据分析反馈等。

用作树中的决策节点的特征的相对等级（即深度）可用于评估该特征相对于目标变量的可预测性的相对重要性。使用在树顶部使用的特征有助于大部分输入样本的最终预测决策。因此，它们所贡献的样品的预期分数可用作对特征的相对重要性的估计。

关于决策树和随机森林分类器（scikit）的疑问

1 个答案:

DT

RF 1

RF 2

RF 3