决策树连续属性

时间:2016-07-08 13:03:19

标签: machine-learning classification decision-tree

我使用决策树制作数据挖掘模型。如果我有像MALE和FEMALE这样的二进制属性,我知道在分割时我会从Gender节点有两个分支。但是如果我有连续属性是浮点数从0到1怎么办?我是否将它映射到离散值,如LOW(0 - 0.5)和HIGH(0.5 - 1)?或者还有其他方法吗?

2 个答案:

答案 0 :(得分:1)

为什么你需要自己拆分?我不确定我是否理解正确。 但是,决策树的目的正是您似乎手工完成的。

对于给定的特征 F (让我们以连续属性为例),其中值在(a,b)之内(可以是] - ∞,+∞[),决策树查找最佳 *值 V ,将您的节点拆分为两个单独的叶子。因此,如果属性 F (a,V)内,则数据属于第一个叶子;如果在(V,b)内,则数据属于第二个叶子

什么 最佳 * 表示

它们有多种方法可以找到值 V ,但一般来说,每个叶子的纯度(文献术语)都是最大的,这意味着数据里面有点同质。 Wiki提供了一些常用的度量标准,用于将每个父叶子拆分为两个子叶子。

答案 1 :(得分:1)

如上所述,您不必担心找到最佳属性。但是如果你有大量浮点数,那么每个值的属性计算时间都很昂贵。在这种情况下,请查看决策树中的离散化算法。

因此,在您的示例中,应用二进制离散化技术时,您的连续属性将转换为离散二进制属性。有大量的离散化技术,使用不同的方法在类之间找到完美的阈值(在你的情况下为0.5)。