决策树状态列和相关数值列

时间:2019-03-21 16:58:00

标签: scikit-learn numeric decision-tree categorical-data

我有一个包含两列的数据,其中一列明确显示了功能的状态,另一列以数字显示了相关值。如下所示:

Status & Value columns

我想通过scikit学习来运行决策树算法。我不确定如何处理这两列,因为从概念上讲,我无法弄清楚如何绑定这两个非常相关的功能。基本上,我们不应该保留空数据,但是,从本质上讲,应该在数值列中保留此数据为空。如果我们将其设置为“ 0”,则它具有另一种含义。

那么,我应该如何预处理这些数据以使决策树算法正常工作?

1 个答案:

答案 0 :(得分:0)

我的预言家提供了如下合理答案。

首先,用“ 0”填充空单元格。 如果将数据插入具有这两个功能的决策树算法中,则有两种情况:

  • 如果“状态”优先出现: 树将0和1分为两个分支。小于0时,所有金额值将已经为0,因此将不选择此功能。在1以下,不会显示0状态。

  • 如果首先出现“金额”:所有状态0将仅位于一个分支下,并且它们将与数量很少的那些在一起。

因此,如果“数量”数据比较嘈杂,则保留“状态”列可能会有所帮助。否则,我将删除“状态”列。