上下文
我有一个零售数据集,其中包含大量客户的销售额。其中一些客户接受了营销处理(即看过电视广告或类似广告),而其他客户则没有。数据非常混乱,大多数客户的销售额为0美元,有些是负面的,有些是正面的,有很多异常值/有影响力的案例等。最终我试图“规范化”数据,以便通用线性模型(GLM)的假设因此我可以使用各种众所周知的统计工具(回归,t检验等)。 转换无法规范化数据。
问题
这些客户的样本组是否合适,以便数据开始变得更加正常?这样做会违反GLM的任何假设吗?您是否了解有关此主题的任何文献?
澄清
例如,我可以将客户分成10个组(2,000个组,每组10个),并计算他们的平均销售额,而不是查看20,000个个人客户(20,000个组中的1个)。从理论上讲,数据应该开始正常化,因为来自总体的所有这些随机抽取开始聚集在总体平均值附近并带有一些标准误差。我可以继续将它们分成更大的组(即200组100),直到数据相对正常,然后进行我的分析。