有三种测量杂质的方法:
每种方法有哪些差异和适当的用例?
答案 0 :(得分:5)
如果p_i的非常小,那么在非常小的数字(基尼指数)上进行乘法可能会导致舍入误差。因此,最好添加日志(熵)。根据您的定义,分类错误提供了总估计,因为它使用单个最大的p_i来计算其值。
答案 1 :(得分:3)
熵与其他杂质测量之间的差异,实际上通常是机器学习中的信息理论方法与其他方法之间的差异,熵已经在数学上被证明可以捕获“信息”的概念。有许多分类定理(证明特定函数的定理或数学对象是满足一组标准的唯一对象)用于熵测量,形式化哲学论证证明其意义作为“信息”的度量。
将此与其他方法(尤其是统计方法)进行对比,这些方法不是为了他们的哲学辩护而选择的,而是主要用于他们的经验证明 - 即他们似乎在实验中表现良好。它们表现良好的原因是因为它们包含了在实验时可能发生的额外假设。
实际上,这意味着熵测量(A)在正确使用时不能过度拟合,因为它们没有任何关于数据的假设,(B)更可能比随机性更好,因为它们推广到任何数据集但(C)特定数据集的表现可能不如采用假设的措施那么好。
在决定在机器学习中使用哪些措施时,往往归结为长期与短期收益和可维护性。熵测量通常由(A)和(B)长期工作,如果出现问题,则更容易追踪并解释原因(例如获取训练数据的错误)。其他方法,(C),可能会带来短期收益,但如果它们停止工作,就很难区分,比如基础设施中的错误,假设不再适用的数据真正发生变化。
模特突然停止工作的典型例子是全球金融危机。银行家们获得了短期收益的奖金,因此他们编写了统计模型,这些模型可以很好地执行短期并且在很大程度上忽略了信息理论模型。
答案 2 :(得分:2)
我发现this description of impurity measures非常有用。除非您是从头开始实施,否则大多数现有实施都使用单个预定的杂质测量。另请注意,基尼指数不是直接测量杂质,而不是其原始配方,并且比上面列出的要多得多。
我不确定我是否理解对小数字和基尼杂质测量的关注......我无法想象在拆分节点时会发生这种情况。
答案 3 :(得分:0)
我已经看到了非正式指导方面的各种努力,从“如果你使用通常的指标之一,那里将没有太大的区别”,到更具体的建议。实际上,了解确定哪种衡量方法最有效的唯一方法就是尝试所有候选人。
无论如何,这是Salford Systems(CART供应商)的一些观点: