我正在阅读“人工智能现代方法”第3版“决策树”(第720页)的主题。本书描述了在我们通过选择属性分割训练集(示例)之后可能发生的一些情况。其中一个案例是
如果没有留下示例,则意味着没有观察到这种属性值组合的示例,并且我们返回根据构造节点父节点时使用的所有示例的多个分类计算的默认值。
据我所知,通过多元分类,它们意味着多数规则。但我无法理解上述情况,即何时会发生。上述案例成立的决策树的一些示例。
答案 0 :(得分:1)
将问题视为构建出现计数的2D表,其中列表示要考虑的某个要素或类,而行表示其他变量的特定配置。
例如,
free
该表代表训练集的联合分布。
在训练期间可能没有看到X,Y和Z(比如1,3,1)的特定组合。你拥有的变量越多,就越有可能遇到看不见的组合。如果你有10个变量,每个变量有两个状态,那么这些变量有1024种可能的配置。如果每个状态有三种状态,则配置数量为3 ^ 10,等等。
坦率地说,我会将1 / numberCols用于任何缺少行的特定列,因为您确实没有任何关于它的信息。您可以为每列使用1 / Sum(行),但这可能会对结果产生不必要的偏差。取决于数据。