我想对市场购物篮分析中哪些项目没有很好地进行分析。基本上找出哪个项目没有排除在队列之外。我有一种情况,其中一个记录(包含13个属性/列)由于各种属性组合而不完整。 例如:a1,a2 .... a13。 所有上述属性可能有也可能没有值。但任何没有值的属性都会使记录不完整
在这种情况下,我需要看到,不完整记录的哪种组合主要出现在我的记录集中。了解这种模式将有助于我的团队优先考虑最需要关注的记录。 我看到Apriori算法仅采用可用的值,但我需要分析未发生的组合。我相信这个问题过去应该已经解决了,但我没有在论坛中看到任何提示。 有没有人有这种经历?或者你建议我应该使用任何其他算法?我正在使用R进行此分析。总记录:218k
答案 0 :(得分:1)
如果我正确掌握你陈述的情况,你想获得一个数据集,其中一个案例的一个项具有一个值或没有一个值,关联那些具有至少一个项目的案例的规则没有价值,然后只有这些没有价值的物品。为此目的,Apriori算法就好了。你甚至不需要反转它。解决方案在于数据集的格式化:只需删除带有值的项目,并为没有值的项目提供类似于关注项目名称的值,例如: A12。然后,您的数据集仅包含至少一个没有值的项目和没有值的项目的案例,以及这些项目可以通过它们的值(即它们的名称)来标识。现在,Apriori算法可以提取格式化数据集中的频繁项集和随后的关联规则。关于是否应该使用其他算法来提取关联规则:是的。使用FP-Growth。它比Apriori算法更快。
答案 1 :(得分:0)
谢谢,这个答案有帮助。我需要分析每个事务中的所有空项,我需要查看哪个组合的null最常出现在所有事务中。 我尝试用常量替换所有空值。在apriori算法中做了一些调整,以获得那些常量为rhs。但我不明白,FP增长算法如何帮助解决这个问题?你能解释一下吗?