关联规则挖掘和关联之间的区别是什么?频繁项集挖掘

时间:2010-06-16 05:20:15

标签: data-mining

我是数据挖掘的新手,并且对关联规则和频繁项目挖掘感到困惑。对我来说,我认为两者都是一样的,但我需要这个论坛专家的意见

我的问题是

关联规则挖掘与关联之间的区别是什么?频繁项集挖掘? 感谢

6 个答案:

答案 0 :(得分:18)

关联规则类似于“A,B→C”,意味着当A和B出现时C倾向于发生。项目集只是一个集合,例如“A,B,C”,如果它的项目倾向于共同出现,则它很常见。 The usual way查找关联规则是查找所有频繁项集,然后将它们后处理为规则。

答案 1 :(得分:8)

频繁项目集挖掘的输入是:

  • 交易数据库
  • 最低支持阈值 minsup

输出结果为:

  • 至少出现在 minsup 交易中的所有项目集的集合。项目集只是一组无序的项目。

关联规则挖掘的输入是:

  • 交易数据库
  • 最低支持阈值 minsup
  • 最小置信度阈值 minconf

输出结果为:

  • 所有有效关联规则的集合。关联规则X - > Y是两个项集X和Y之间的关系,使得X和Y是不相交的并且不是空的。有效规则是支持更高或等于minsup且置信度高于或等于minconf的规则。支持定义为sup(x - > Y)= sup(X U Y)/(交易数)。置信度定义为conf(x - > Y)= sup(X U Y)/ sup(X)。

现在,项目集和关联规则挖掘之间的关系是,使用频繁项集来生成规则非常有效(参见Agrawal 1993的论文),了解有关此想法的更多详细信息。因此,关联规则挖掘将分为两个步骤: - 挖掘频繁项目集 - 使用频繁项目集生成所有有效的关联规则。

答案 2 :(得分:5)

频繁项集挖掘是关联规则挖掘的第一步。 一旦你生成了所有频繁项目集,你就一个接一个地迭代它们,枚举所有可能的关联规则,计算它们的置信度,最后,如果信心是> minConfidence,您输出该规则。

答案 3 :(得分:2)

频繁项集挖掘是关联规则挖掘的一个步骤。在对数据应用Apriori,FPGrowth等频繁项集挖掘算法后,您将获得频繁的项集。从这些 发现频繁项目集,您将生成关联规则(通常通过子集生成完成)。

答案 4 :(得分:1)

通过使用关联规则挖掘,我们将获得存在于给定数据集中的频繁项目集。它还提供了用于挖掘频繁项集的不同类型的算法,但是它以不同的方式完成,这意味着水平或垂直格式。 Apriori算法遵循水平格式来挖掘频繁项集,而eclat算法遵循垂直格式来挖掘频繁项集。

答案 5 :(得分:0)

关联规则挖掘:

使用关联规则挖掘来查找数据中的模式,查找同时出现并关联的特征。

  • 示例:

例如,购买尿布的人可能会购买婴儿爽身粉。或者,我们可以用以下措辞改写该声明:如果(人们购买尿布),那么(他们购买婴儿爽身粉)。注意如果,则规则。这并不一定意味着如果人们购买婴儿爽身粉,他们就会购买尿布。通常,我们可以说,如果条件A趋于B,则不一定意味着B趋于A。

频繁挖掘项目集:

常用项目集挖掘用于查找数据中的常用项目集。它可以根据给定的交易数据集生成关联规则。

  • 示例:

如果X和Y经常购买2件商品,那么最好将它们放在一起存放,或者在购买另一件商品时提供某件商品的折扣优惠。这确实可以增加销售额。例如,很可能会发现,如果客户购买牛奶和面包,他/她也会购买黄油。 因此,关联规则为['milk] ^ ['bread'] => ['butter']。因此,卖方可以建议客户购买牛奶和面包的人购买黄油。