如何处理涉及多个数据集的缺失数据

时间:2019-05-18 22:04:15

标签: python database machine-learning logistic-regression data-analysis

我正在开发一个模型,用于预测客户根据其日常使用情况更换电话公司的可能性。我的数据集包含两周(14天)的信息。

我的数据集包括在每一行中:

用户ID,日期(从1到14之间的数字),还有另外15个值的列表。

问题来自一些客户每天都不使用电话的事实,因此对于每个客户,根据他们使用电话的天数,我们会有随机的行数(从1到14)。因此,我们缺少一些客户端日数据组合。

由于数据集很小,因此删除缺失值不是一个选择,这会影响预测方法。

我可以为每个客户的这种缺失天数做出什么样的处理?

我试图创建一个新的数据集,其中每个客户只有一个条目,有一个新值可量化电话使用天数,其余值是在上找到的所有值的平均值原始数据集的每一天。这减小了数据集的大小,而与删除缺失值相比,我们将面临同样的问题。

我已经考虑过为每个客户的缺失天数添加值(使用插值方法),但这会扭曲结果,因为这会使数据集好像每个客户每天都在使用手机,并且会影响预测模型。

0 个答案:

没有答案