让我们说我们试图模拟某人购买产品的倾向(例如汽车),而且客户只能购买6种类型的汽车(比如Car_a,Car_b,Car_c,Car_d,关心)。
从市场营销的角度来看,我想知道哪个客户有更高的可能性(二进制分类),我可能还想知道客户最有可能乘坐哪辆车(多级)分类)。
我创建了一个二元分类模型,可以预测某人开车的倾向。 例如,顾客_A - > 0.25,我们称之为Pr_binary(Customer_A)
我还创建了一个包含Car_a,Car_b,Car_c,Car_d,Car_e类的多类模型,它告诉客户购买这些车的可能性。
现在,我的问题是,概率Pr_binary是否与多个[Pr(Car_a)+ Pr(Car_b)+ Pr(Car_c)+ Pr(Car_d)+ Pr(Car_e)]之和相当或相等班级模特?
答案 0 :(得分:0)
不,您使用的表达方式不相同。
假设(在你的例子中)只有5种类型的汽车,那么组合概率的正确方法是:
P(buying) = 1 - P(not buying)
其中:
P(not buying) = (1 - Pr(Car_a)) * (1 - Pr(Car_b)) * (1 - Pr(Car_c)) * (1 - Pr(Car_d)) * (1 - Pr(Car_d))
这应该可以帮助您评估两种情况下特定客户的概率是否相似。
但请注意,这假设您的多类方法的输出是概率,并且(如果您使用的是One VS All分类器)所有单个概率都已校准。