在Python中进行逻辑回归时,如何处理数值缺失的数值变量?

时间:2019-07-28 03:06:13

标签: python logistic-regression missing-data

我正在建立一个信用评分模型,并且一些数字属性(如最近查询的年龄)缺少值。他们失踪是因为这些人之前没有询问过,因此此属性不适用于他们。

我确实希望在模型中包含此属性。这是一个难题:如果我将此属性保持为数字,那么那些价值缺失的客户将被排除在外,但我希望在模型中考虑它们。如果我将此属性分类,则这些不同级别将被视为类别,并且我将无法保持年龄的单调性。

  1. 在Python中进行逻辑回归时,是否可以保留数字变量的空记录?在这种情况下,缺少数据归因不适用,因为这些数据应保留为空。

  2. 如果使用垃圾桶,是否可以保持垃圾桶之间的单调性?例如,最近查询的年龄在> 12的bin中应该会对信用评分产生更大的影响,而不是在[1,2]的bin中。

  3. 合并时我使用一种热编码。我如何才能将变量的所有级别作为一个组来对待,并决定其重要性,而不是将所有级别视为独立的预测变量?

0 个答案:

没有答案