如果我有一个训练有素的决策树,是否仍然存在一些树没有预测的属性组合?我的意思是,是否有可能有一个决策树响应来自未经过培训的数据集的所有可能的输入组合?我不关心树的准确性,相反我想知道一个好的决策树是否可以预测所有可能的输入组合。
感谢您的帮助!
答案 0 :(得分:0)
这取决于是否通过"属性的组合"您指的是为其提供值的属性集,或者您指的是特定值的组合(对于所有属性)。例如,假设您有属性A,B,C和D.属性A可以具有值{A_1,A_2,...,AA_n}(对于属性B,C和D也类似)。
如果通过"属性和#34;的组合,你的意思是有时会为所有属性提供值,但有时只提供一个子集(例如,只有A,C和D的值),那么它取决于关于特定决策树的实施。例如ID3要求每个样本都包含所有属性的值,而C4.5则不需要(即,它处理缺少的属性)。
如果通过"属性组合"你的意思是所有属性总是存在,但并不是在训练期间遇到属性值的所有组合(例如,没有组合训练样本(A_2,B_5,C_1,D_4)),然后是,训练有素的决策树应该能够处理这些案件。更具体地说,训练好的树应该能够对训练它的属性的所有值组合进行分类。
如果对应于特定属性的节点没有具有该属性的特定值的训练样本,则基于父节点的属性(接近根的下一个节点)的值进行预测)。例如,假设您有一个新观察(A_2,B_5,C_1,D_4)。您可以拥有一个训练有素的树,其根节点在属性C上分支。根据给定的属性值C = C_1,树可以在属性B上分支,并且基于B = B_5,它可以进行预测。可能没有组合的训练样本(*,B_5,C_1,*)。在这种情况下,预测仅基于值C = C_1。
或者可能存在C = C_1和B = B_5的训练样例,但该组合已足以进行预测。在这种情况下,新观测值的A和D的值与B和C的这种组合无关。由于所有匹配的新观测值(*,B_5,C_1,*)具有相同的预测,因此没有必要相关的值。 A和D也出现在训练数据中。