我正在使用Apriori算法来识别客户的频繁项目集。基于所识别的频繁项目集,我想在客户向他的购物清单添加新项目时向客户提示建议项目,因为频繁项目设置我得到的结果如下;
[1],[3],[2],[5]
[2.3],[3,5],[1,3],[2,5]
[2,3,5]
我的问题是,如果我只考虑[2,3,5]设置向客户提出建议我错了吗?即如果客户将第3项添加到他的购物清单中,我会推荐第2项和第5项。如果客户将第1项添加到购物清单,则不会提出任何建议,因为我只考虑设置[2,3,5]而第1项是在该集合中不可用。我想知道我的逻辑(仅考虑设置[2,3,5])是否足以为用户提出建议
答案 0 :(得分:1)
您应该根据项目集的频率如何相对于其子项集来确定规则。例如
这意味着不仅可以使用最大的频繁项目集来制定规则,而且还可以使用其子频繁项目集。如果您可以考虑项目集相对于其他项目的接近频率,那么规则将更加谨慎。
答案 1 :(得分:0)
没有。推导规则需要更多努力。
仅仅因为[2,3,5]经常不意味着2 - > 3,5是一个很好的规则。
考虑2是非常受欢迎的产品的情况,但3,5只是勉强频繁。考虑加油站。 [天然气,咖啡,百吉饼]可能是一个常见的项目集,但很少有购买天然气的顾客也会购买咖啡和百吉饼(低信度)。
你做想要考虑诸如2,3 - >之类的规则。 5因为他们可能具有更高的置信度。即如果顾客购买汽油和咖啡,建议吃百吉饼。
频率不足以推荐!考虑在80%的情况下购买2和3。在60%的情况下购买2,3,5。天真地,在8次中的6次中,顾客也将购买5次,即75%的正确率!但这确实不意味着5是一个很好的推荐!因为5可能总共有80%,所以如果他买2和3,他实际买5的可能性降低5%,而且我们在这里有负相关。这就是你需要看看电梯的原因。或者其他类似的措施,有很多。