我的任务是提出一种方法,为不同的客户群体预测客户活动60个月。这些组可以基于多种因素 - 计划,获取渠道,获取月份等,即最终用户需要使用的任何标准。我正在学习,我认为最好的方法是使用回归为几个不同的客户群开发基于60个月完成数据的模型。然后,该模型可以应用于最终用户感兴趣的不同客户群。
在大多数情况下,该模型似乎运作良好,但有些团体只有不同的购买活动水平。例如,我的模型基于客户每月平均花费15美元的数据。但是,有一些客户群体的平均支出是5美元,因此预测很少。通常,该模型使用2-3个月的客户组数据运行。
有没有办法“缩放”系数,以便模型能够很好地投射到不同支出水平的不同群体?这更像是一个统计问题..任何指导都将非常感激。
答案 0 :(得分:0)
如果我正确理解您的问题,那么您使用平均花费为15美元的数据构建回归模型,但现在您正在尝试使用该模型来预测平均花费为5美元的其他群体的结果,这会让你的预测失效吗?
发生这种情况的原因是您的模型规范错误。处理此问题的正确方法是在构建回归模型时(包括所有数据的列车)包括$ 15和$ 5组。你不应该使用回归来训练一个人群,然后测试另一个人群,因为你只是将错误的模型应用于目标人群($ 5组)
如果由于某种原因你不能使用所有感兴趣的组的数据重建你的模型,你可以尝试的另一件事是建立一个只有15美元组的标准化模型。我不确定它在实践中的效果如何,您必须构建模型并对其进行测试,但它会是这样的:
获取15美元的组数据,并通过取每个值,减去该变量的平均值,然后除以标准差来标准化预测变量:X_standardized = (X - mean(X))/sd(X)
使用这些标准化预测变量建立新的回归模型。
一旦有了新模型,并且想要预测5美元组的值,而不是传递原始的5美元值进行预测,您必须首先标准化变量,然后传递标准化值。
如果您尝试一次预测一个值并且无法访问足够大的5美元组成员样本来计算平均值和标准偏差,那么这不会起作用。