数据挖掘:频繁项集

时间:2014-01-07 17:08:58

标签: data-mining

当在考试问题中被问到找到所有频繁的项目集时,它只是你最后计算出来的那个答案,或者你是否有必要在此之前给出所有答案。

e.g。如果我得到的最后一个结果是(A,B,D),那么就是我的频繁项目集,或者我是否还需要包括在此之前找到的所有也满足minSup的结果,例如(A,B)(A,D)(B,D)等

1 个答案:

答案 0 :(得分:0)

据我所知,您询问频繁项目集是否满足最低支持阈值,此项目集的子集是否也支持最低支持?答案是子集也满足最低支持阈值。

这里的逻辑是自下而上的方法。从大小为1的频繁项集生成大小2候选项集。 3号候选项集是从2号频繁项集生成的。

对于示例数据集:

  • 第1行:A B C D E
  • 第2行:A C D
  • 第3行:B C
  • 第4行:A C D E
  • 第5行:A D E
  • 第6行:A B C D
  • 第7行:A B C
  • 第8行:A C
  • 第9行:B C D
  • 第10行:B D E

首先生成大小为1的候选项集。这些是:A,B,C,D,E。现在计算每个候选人的支持。 A = 7,B = 6,C = 8,D = 7,E = 4。现在,如果minSup值为5 E则被修剪。 İfminSup值为3,然后所有1号候选人都被评估为频繁。

生成第二个大小2候选项集。该方法是跨产品规模1频繁项目集。因此生成A B,A C,A D,A E,B C,B D,B E,C D,C E,D E大小2候选项集。在此之后,计算每个候选者的支持值。由于第1行,第6行和第7行包含此模式,因此对A B的支持为3。但是B E候选者仅存在于第1行和第10行,如果minSup值为3,则该候选者将被修剪。

因为使用了这个逻辑,如果上面的项集是频繁的,那么子集也应该是频繁的。如果不是,则无法生成上面的项目集。

我希望我能解释一下自己。