Apriori算法 - 频繁项集生成

时间:2016-05-20 16:37:35

标签: algorithm data-mining apriori

我正在使用Apriori算法来识别客户的频繁项目集。基于所识别的频繁项目集,我想在客户向他的购物清单添加新项目时向客户提示建议项目,因为频繁项目设置我得到的结果如下;

[1],[3],[2],[5]
[2.3],[3,5],[1,3],[2,5]
[2,3,5]

我的问题是,如果我只考虑[2,3,5]设置向客户提出建议我错了吗?即如果客户将第3项添加到他的购物清单中,我会推荐第2项和第5项。如果客户将第1项添加到购物清单,则不会提出任何建议,因为我只考虑设置[2,3,5]而第1项是在该集合中不可用。我想知道我的逻辑(仅考虑设置[2,3,5])是否足以为用户提出建议

2 个答案:

答案 0 :(得分:1)

您应该根据项目集的频率如何相对于其子项集来确定规则。例如

  1. 如果(2,3,5)的频率接近(3,5)的频率,则规则将是(3,5) - > 2
  2. 如果(2,3,5)的频率接近(3)的频率,则规则将是3 - > (2,5)
  3. 如果(2,3)的频率接近(2)的频率,则规则将是2 - > 3
  4. 这意味着不仅可以使用最大的频繁项目集来制定规则,而且还可以使用其子频繁项目集。如果您可以考虑项目集相对于其他项目的接近频率,那么规则将更加谨慎。

答案 1 :(得分:0)

没有。推导规则需要更多努力。

仅仅因为[2,3,5]经常意味着2 - > 3,5是一个很好的规则。

考虑2是非常受欢迎的产品的情况,但3,5只是勉强频繁。考虑加油站。 [天然气,咖啡,百吉饼]可能是一个常见的项目集,但很少有购买天然气的顾客也会购买咖啡和百吉饼(低信度)。

想要考虑诸如2,3 - >之类的规则。 5因为他们可能具有更高的置信度。即如果顾客购买汽油和咖啡,建议吃百吉饼。

频率不足以推荐!考虑在80%的情况下购买2和3。在60%的情况下购买2,3,5。天真地,在8次中的6次中,顾客也将购买5次,即75%的正确率!但这确实意味着5是一个很好的推荐!因为5可能总共有80%,所以如果他买2和3,他实际买5的可能性降低5%,而且我们在这里有负相关。这就是你需要看看电梯的原因。或者其他类似的措施,有很多。