完美的决策树分类

时间:2013-04-04 05:56:43

标签: machine-learning classification decision-tree

想象一下,已知一组变量V和一组标签名称T(分类标签)之间的所有已知映射的范围。此外,假设唯一变量值组合的总空间大(> 100B点),标签集的大小相对较小(数千个元素)并且变量的数量非常小(4-10)。

用于构建分类器函数的算法是什么,该函数提供从变量值到具有以下空间和时间复杂度目标的标签的完美映射(将先验知识与无误报或漏报相匹配):

  • 时间复杂度低于O(| V | * log | T |)
  • 空间复杂度小于O(| V | k ),k≤ e

或者,重新定义为决策树问题:

  1. 如何调整决策树算法以创建完美的映射?
  2. 如何有效地表示培训数据以保证?

1 个答案:

答案 0 :(得分:4)

您尝试实现的目标应该可以使用任何决策树分类器,允许您以某种方式指定修剪级别。这个想法是让它根本不做任何修剪。您最终得到的决策树将(可能)每个训练实例(即非常大)有一个叶子,但会给出“完美”的准确度,预测时间为O(| V | * log | T |)。

这完全独立于训练数据的表示方式(应该是)。唯一重要的是决策树诱导器可以读取和处理它。构建这样一棵树的一种简单方法是为第一个例子添加一个路径,然后在第二个例子中合并一个路径,依此类推。

这种分类器在实践中是否有用当然是一个完全不同的问题 - 在大多数情况下它不会是。