关联规则挖掘基础知识 - 如何读取关联规则

时间:2014-09-09 15:55:27

标签: associations weka data-mining

这是一个非常基本的问题:

示例规则(假设它是从WEKA生成的):

bread=t 10 ==> milk=t 10 conf:(1)

这意味着“从10个实例中,每次人们购买面包,他们也会购买牛奶”。 (忽略支持)

这条规则可以双向阅读吗?比如,“每次人们买牛奶,他们也会买面包?”

另一个例子

Physics101=A ==> Superphysics401=A

可以通过以下两种方式阅读:

“如果人们在Physics101上获得A,那么他们在Superphysics401上也获得了A”

“如果人们在Superphysics401上得到A,他们也会在Physics101上获得A”?

如果是这样,是什么让WEKA按顺序生成规则(Physics ==> Superphysics),为什么不是另一种方式呢?或订单不相关?

1 个答案:

答案 0 :(得分:2)

Does this rule can be read both ways? Like, "everytime people buy milk, they also buy bread?"

不,它只能以单向读取。

这是从暗示规则中得出的。 A -> BB -> A是不同的事情。将前者描述为“A是B的子集”,因此,无论何时在A中,您都在B. B -> A,也称为A -> B的反转,可以用类似的方式解释。当这两个都成立时,我们会说A <-> B这意味着AB基本相同。

如果上面的内容看起来太多,请记住以下几点: 雨 - &gt;云是真的。每当下雨,就会有云,但云 - &gt;雨并非总是如此。可能有云,但没有下雨。

  

如果是这样,是什么让WEKA按此顺序生成规则(Physics ==&gt;   超级物理学),为什么不是另一种方式?或订单不相关?

数据集导致规则。这是一个例子:

Milk, Bread, Waffers
Milk, Toasts, Butter
Milk, Bread, Cookies
Milk, Cashewnuts

说服自己面包 - &gt;牛奶,但牛奶! - &GT;面包。

请注意,我们可能并不总是对持有或不持有的规则感兴趣。因此,我们试图在规则中添加一种信心概念。定义A->B置信度的一种自然方式是P(B|A),即当我们看到A时,我们多久会看到B. 这可以通过将出现在一起的B和A的计数除以单独出现的A的计数来计算。

在我们的示例中,

        P(Milk | Bread) = 2 / 2  = 1 and
        P(Bread | Milk) = 2 / 4 = 0.5

您现在可以根据信心对规则列表进行排序,并决定您要使用哪些规则。