当实际上没有值而0不是一个选项时,如何处理缺失的数据?

时间:2017-03-23 21:30:59

标签: feature-extraction

我正处于数据挖掘项目的数据准备阶段,即将处理缺失值。我的数据集包含有关电子商务公司的购买交易的信息,其中包括订单和交货日期。

我在这两个变量中构造了一个名为deliverytime的变量,但delivery_date中有几个缺失值,因此也在deliverytime中。如果derliverydate中缺少值,则实际上意味着该产品从未被运送过。现在我确实想要考虑到这一点,但是为这些观察值分配交货时间值0是不可行的,因为可以选择快递货物,同时产品在同一天交付。我也不想指定像" 999"因为我只能把这个变量看作一个因素。

有没有人有想法如何处理这个问题?你会考虑创建一个名为"的新变量"如果从未交付,则取值为0,如果是,则取值为1?

非常感谢您的帮助!

0 个答案:

没有答案