我正处于数据挖掘项目的数据准备阶段,即将处理缺失值。我的数据集包含有关电子商务公司的购买交易的信息,其中包括订单和交货日期。
我在这两个变量中构造了一个名为deliverytime的变量,但delivery_date中有几个缺失值,因此也在deliverytime中。如果derliverydate中缺少值,则实际上意味着该产品从未被运送过。现在我确实想要考虑到这一点,但是为这些观察值分配交货时间值0是不可行的,因为可以选择快递货物,同时产品在同一天交付。我也不想指定像" 999"因为我只能把这个变量看作一个因素。
有没有人有想法如何处理这个问题?你会考虑创建一个名为"的新变量"如果从未交付,则取值为0,如果是,则取值为1?
非常感谢您的帮助!