使用Arules软件包运行Apriori,会产生很高的提升规则。
例如:
A -> B support=0.0023 confidence=0.6832 lift=28.02
(min_support = 0.002和min_conf = 0.2)
在某些规则中,升力高达250!我已经看到人们讨论的升力大于1(大多数小于5),但是我想知道如何解释非常高的升力值的这些规则。
答案 0 :(得分:1)
提升量度代表购买商品X时购买商品Y的可能性,同时控制商品Y的受欢迎程度:
support(X,Y)/(support(X)* support(Y))。
通常,升力值大于1表示如果购买了X项,则很可能会购买Y;而小于1的值意味着如果购买了X项,则不太可能购买Y。如果您有一个庞大的数据集,那将很有趣,但是,如果您的数据集很小且得到支持,那将什么都没有。在此处查看说明性的answer:
答案 1 :(得分:1)
您将最小支持计数(arules
中的先验报告)设置为
0.002 * 530笔交易= 1.06
这意味着每条包含偶然偶然发生的项目的规则都将被认为导致许多虚假规则,并且提升率很高。例如,如果x和y两个项目在数据集中仅发生一次,但恰好在同一事务中,则对于数据集,您得到
的提升lift(x-> y)= supp(x,y)/(supp(x)* supp(y))=(1/580 /(1/580 * 1/580))=580。>
但是,该规则并不是很有用,因为它偶然发生了一次。
以下论文详细讨论了此问题以及其他可能的解决方案: