我有一个包含两列的数据,其中一列明确显示了功能的状态,另一列以数字显示了相关值。如下所示:
我想通过scikit学习来运行决策树算法。我不确定如何处理这两列,因为从概念上讲,我无法弄清楚如何绑定这两个非常相关的功能。基本上,我们不应该保留空数据,但是,从本质上讲,应该在数值列中保留此数据为空。如果我们将其设置为“ 0”,则它具有另一种含义。
那么,我应该如何预处理这些数据以使决策树算法正常工作?
答案 0 :(得分:0)
我的预言家提供了如下合理答案。
首先,用“ 0”填充空单元格。 如果将数据插入具有这两个功能的决策树算法中,则有两种情况:
如果“状态”优先出现: 树将0和1分为两个分支。小于0时,所有金额值将已经为0,因此将不选择此功能。在1以下,不会显示0状态。
如果首先出现“金额”:所有状态0将仅位于一个分支下,并且它们将与数量很少的那些在一起。
因此,如果“数量”数据比较嘈杂,则保留“状态”列可能会有所帮助。否则,我将删除“状态”列。