我正在寻找一个统计模型或测试来回答以下问题,并希望得到一些帮助:
我有我的客户可以订阅的产品p1,...,p5。 我已将客户分为A1,...,A组,每组和每种产品组合,我都计算了有多少客户拥有这种产品组合,以及它如何影响他们的销售:
Customer_group has_p1 has_p2 [...] has_p5 cust_count total_sales
A1 0 0 0 124 1234
A1 1 0 0 315 999
A1 1 1 0 199 7777
[...]
An 1 1 1 233 663
现在我想找出哪一组客户从哪种产品或产品组合中受益。
我的第一个想法是对拥有产品的客户群使用配对t测试,而不是与其他产品在同一组合中的产品组,即用于测量p1的效果我会将{A1,1,0,0,1,0}与{A1,0,0,0,1,0}配对,并比较total_sales / cust_count的两个值的系列。
然而,通过这项测试,我只知道哪些产品有效,而不是哪个产品有效,或者产品是否与其他产品一起销售是显着的。
有什么好主意吗?
答案 0 :(得分:0)
所以在思考了一天之后,我找到了一条路:
首先,我对组进行了一次热编码,因此我将customer_group列替换为包含0和1的n列。
然后我用混合术语制作了一个线性回归模型:
product_i * product_j + group_k * product_i + group_k * product_i * product_j
通过减少模型,我发现哪种产品x产品组合和哪些组x产品和组x产品x产品组合显着