我正在开发一个模型,用于预测客户根据其日常使用情况更换电话公司的可能性。我的数据集包含两周(14天)的信息。
我的数据集包括在每一行中:
用户ID,日期(从1到14之间的数字),还有另外15个值的列表。
问题来自一些客户每天都不使用电话的事实,因此对于每个客户,根据他们使用电话的天数,我们会有随机的行数(从1到14)。因此,我们缺少一些客户端日数据组合。
由于数据集很小,因此删除缺失值不是一个选择,这会影响预测方法。
我可以为每个客户的这种缺失天数做出什么样的处理?
我试图创建一个新的数据集,其中每个客户只有一个条目,有一个新值可量化电话使用天数,其余值是在上找到的所有值的平均值原始数据集的每一天。这减小了数据集的大小,而与删除缺失值相比,我们将面临同样的问题。
我已经考虑过为每个客户的缺失天数添加值(使用插值方法),但这会扭曲结果,因为这会使数据集好像每个客户每天都在使用手机,并且会影响预测模型。