关于决策树和随机森林分类器(scikit)的疑问

时间:2015-12-17 15:43:53

标签: machine-learning scikit-learn random-forest decision-tree ensemble-learning

我是决策树的新手,所以可能这些都是微不足道的问题。

决策树:

  1. 根据scikit doc(http://scikit-learn.org/stable/modules/tree.html),“predict_proba”函数返回每个类的概率,这是叶子中同一类的训练样本的分数。究竟是什么意思。
  2. 随机森林分类器:

    1. 在随机森林分类器中采用替换(自举)样本的优势是什么?它提供了多于Pasting的额外好处,即获取数据集的随机子集(http://scikit-learn.org/stable/modules/ensemble.html
    2. scikit随机林分类器中有一个参数为“bootstrap_features”(使用或不使用替换绘制要素)。用替换绘制特征究竟是什么意思。根据我的理解,在种植树时,您不能再使用相同的功能。那么更换一个功能究竟意味着什么。
    3. 从随机森林分类器学习变量重要性背后的直觉是什么。

1 个答案:

答案 0 :(得分:1)

DT

  

根据scikit doc(http://scikit-learn.org/stable/modules/tree.html),“predict_proba”函数返回每个类的概率,这是叶子中同一类的训练样本的分数。究竟是什么意思。

如果你没有限制地种植你的树 - 这意味着什么,预测proba将总是输出100%。但是,如果你以某种方式限制树的大小(例如通过max_depth),那么一些叶子实际上将最终得到来自不同类的样本,然后预测proba,如果分类在这样的叶子中完成,则返回每个类的概率与该叶中的每个类样本成比例。例如,你得到一个叶子,其中3个样本来自1级,2个来自2级,然后如果你最终在这个叶子中输出[0.6 0.4](3 /(3 + 2)= 3/5 = 0.6 = 60%是你应该分配1级的概率,2 /(3 + 2)= 2/5 = 0.4 = 40%的2级。

RF 1

  

在随机森林分类器中采用替换(自举)样本的优势是什么?与Pasting相比,它提供了哪些额外的好处,即获取数据集的随机子集(http://scikit-learn.org/stable/modules/ensemble.html

它使您的训练集大小与原始训练集相同,因此您可以或多或少地使用与单个树相同的超参数范围。此外,这使得训练集更加多样化(因为您对一些样本进行了人工“提升”,这些样本被多次绘制)。它还具有更好的统计特性,从而可以更好地估计估计量的属性(例如其泛化能力)

RF 2

  

scikit随机林分类器中有一个参数为“bootstrap_features”(使用或不使用替换绘制要素)。用替换绘制特征究竟是什么意思。根据我的理解,在种植树时,您不能再使用相同的功能。那么更换一个功能究竟是什么意思。

No, there is not

  

class sklearn.ensemble.RandomForestClassifier(n_estimators = 10,   criterion ='gini',max_depth = None,min_samples_split = 2,   min_samples_leaf = 1,min_weight_fraction_leaf = 0.0,max_features ='auto',   max_leaf_nodes =无, bootstrap = True ,oob_score = False,n_jobs = 1,   random_state =无,verbose = 0,warm_start = False,class_weight =无

也许你的意思是通用Bagging?然后,您可以多次使用每个功能。

RF 3

  

从随机森林分类器学习变量重要性背后的直觉是什么。

这只是衡量树中每个要素使用多少样本的一个度量标准,因此 - 如果从数据集中删除此要素,分数越低,丢失的越少。您可以通过各种方式使用它,包括功能选择,数据分析反馈等。

  

用作树中的决策节点的特征的相对等级(即深度)可用于评估该特征相对于目标变量的可预测性的相对重要性。使用在树顶部使用的特征有助于大部分输入样本的最终预测决策。因此,它们所贡献的样品的预期分数可用作对特征的相对重要性的估计。