我正在尝试对分类变量使用线性回归方法。
因此我认为最好使用基于虚拟的方法。
我知道我的数据集的 delivery_cost
列中存在一些缺失值。通过 is.null() 我发现有 17 个值丢失了。
我知道送货成本呈线性关系(每个分店的配送方式不同,例如 Sunshine、Footscray 等)
我也需要小心,因为 isLoyaltyProgram(0 - 不是忠诚度的一部分,1 - 忠诚度的一部分)delivery_cost 打折了 10%
我首先想知道使用线性回归是否是查找缺失值的正确方法。
我目前正在使用 Pandas 读取可在文本文件中找到的 csv 文件 https://paste.pythondiscord.com/raw/uvadaroyoj
如果有人能给我一些关于背后代码的指导,我很乐意阅读它。
谢谢。
答案 0 :(得分:0)
据我所知,您正在尝试根据其他变量(dist_to_nearest_storehouse、season、isLoyaltyProgram)预测缺失值。所以你使用什么模型取决于你的数据和你的假设:如果你相信所有的变量都与 y 有线性关系,那么你可以使用线性回归,如果不是,你可以使用可以拟合非线性数据的模型(SVM 、决策树、神经网络)。但就我个人而言,对于 17 个缺失值,如果它们不是我的样本量的很大一部分,我会放弃它们。