线性回归来估算缺失值 pandas python

时间:2021-05-19 08:32:38

标签: python pandas dataframe linear-regression categorical-data

我正在尝试对分类变量使用线性回归方法。 因此我认为最好使用基于虚拟的方法。 我知道我的数据集的 delivery_cost 列中存在一些缺失值。通过 is.null() 我发现有 17 个值丢失了。

我知道送货成本呈线性关系(每个分店的配送方式不同,例如 Sunshine、Footscray 等)

  • 分支已经通过 store_id 列,离散变量被虚拟化
  • dist_to_nearest_storehouse 是一个连续变量
  • seasons 是一个离散变量(因此夏季、春季、冬季、秋季将被视为虚拟变量)

我也需要小心,因为 isLoyaltyProgram(0 - 不是忠诚度的一部分,1 - 忠诚度的一部分)delivery_cost 打折了 10%

我首先想知道使用线性回归是否是查找缺失值的正确方法。

我目前正在使用 Pandas 读取可在文本文件中找到的 csv 文件 https://paste.pythondiscord.com/raw/uvadaroyoj

如果有人能给我一些关于背后代码的指导,我很乐意阅读它。

谢谢。

1 个答案:

答案 0 :(得分:0)

据我所知,您正在尝试根据其他变量(dist_to_nearest_storehouse、season、isLoyaltyProgram)预测缺失值。所以你使用什么模型取决于你的数据和你的假设:如果你相信所有的变量都与 y 有线性关系,那么你可以使用线性回归,如果不是,你可以使用可以拟合非线性数据的模型(SVM 、决策树、神经网络)。但就我个人而言,对于 17 个缺失值,如果它们不是我的样本量的很大一部分,我会放弃它们。