我目前正在为我的大学运营一个特定的项目。 我将在项目中做的是建立一个带有关联规则挖掘的交叉销售模型。
在结果中,我有很多规则,但我不确定如何对它们进行排名,这将是最好的。
如果
,哪个选项会更好选项1:Confidence=20% Lift= 5
选项2:Confidence = 50% Lift = 2
我知道自信很重要,但我听说Lift
也非常重要。我是否应该牺牲一些信心来获得更多提升或保持平衡?
答案 0 :(得分:1)
这取决于关联规则挖掘的目的是什么:
e.g:
- 100.000 transactions' database
- 2.000 tranasctions contain {(a, b)}
- 800 transactions contain {(a, b, c)}
支持项目集{(a, b, c)}: (800 / 100.000) * 100 = 0,8%
。
项目集的支持表示数据库的随机事务包含项目集项的频率。
关联规则{(a, b)} -> {(c)}: (800 / 2000) * 100 = 40%
的信心。
关联规则的置信度表示包含关联规则的结果的数据库的随机事务还包含关联规则的先例的频率。
解除关联规则{(a, b)} -> {(c)}: 40 / ((5.000 / 100.000) * 100) = 8
。
提升是信心与关联规则的预期置信度之比。关联规则的置信度为40%。预期在此上下文中的置信度意味着如果{(a, b)}
出现在事务中,这不会增加该事务中{(c)}
的概率。
e.g。如果数据库的5.000个事务中出现{(c)}
,则预期置信度为(100.000 / 5.000) * 100 = 5%
。
高于1
的协同规则的提升值表示关联规则是有用的。提升值小于或等于1
表示关联规则无效。在这种情况下,它就像先行词,并且关联规则的结果是彼此独立的。指示关联规则的有用性,即如果某个事务持有({a, b})
,那么它与({c})
关联并不是更有用,那么({a, b})
偶然会联合({c})
。
e.g。如果数据库的所有100.000个事务都包含{(c)}
,则{(c)}的预期值为(100.000 / 100.000) * 100 = 100%
。电梯是40 / 100 = 0,4
。这比1
少。因此关联规则{(a, b)} -> {(c)}
没有用。每个交易都有{(c)}
。如果交易中有{(a, b)}
,则无论哪种方式都有{(c)}
。没有使用关联。
这里圈子关闭:它取决于关联规则挖掘的目的。如果目标是建立更强大的关联规则,那么信心需要更高。如果目的是创建额外有用的联合规则,那么电梯需要特别高。