当在考试问题中被问到找到所有频繁的项目集时,它只是你最后计算出来的那个答案,或者你是否有必要在此之前给出所有答案。
e.g。如果我得到的最后一个结果是(A,B,D),那么就是我的频繁项目集,或者我是否还需要包括在此之前找到的所有也满足minSup的结果,例如(A,B)(A,D)(B,D)等
答案 0 :(得分:0)
据我所知,您询问频繁项目集是否满足最低支持阈值,此项目集的子集是否也支持最低支持?答案是是子集也满足最低支持阈值。
这里的逻辑是自下而上的方法。从大小为1的频繁项集生成大小2候选项集。 3号候选项集是从2号频繁项集生成的。
对于示例数据集:
首先生成大小为1的候选项集。这些是:A,B,C,D,E。现在计算每个候选人的支持。 A = 7,B = 6,C = 8,D = 7,E = 4。现在,如果minSup值为5 E则被修剪。 İfminSup值为3,然后所有1号候选人都被评估为频繁。
生成第二个大小2候选项集。该方法是跨产品规模1频繁项目集。因此生成A B,A C,A D,A E,B C,B D,B E,C D,C E,D E大小2候选项集。在此之后,计算每个候选者的支持值。由于第1行,第6行和第7行包含此模式,因此对A B的支持为3。但是B E候选者仅存在于第1行和第10行,如果minSup值为3,则该候选者将被修剪。
因为使用了这个逻辑,如果上面的项集是频繁的,那么子集也应该是频繁的。如果不是,则无法生成上面的项目集。
我希望我能解释一下自己。