在Weka中获取Apriori算法的频率

时间:2015-08-13 13:57:24

标签: algorithm associations weka data-mining apriori

我试图在Weka中应用Apriori算法 维基百科有一个简单的例子(Apriori algorithm):

alpha beta epsilon
alpha beta theta
alpha beta epsilon
alpha beta theta

可以从此表中确定以下关联规则:

  • alpha的100%集合也包含beta
  • 50%使用alpha,beta的套装也有epsilon
  • 50%使用alpha,beta的套装也有theta

我将这些条目转换为CSV并添加了另一个属性行,因此我终于拥有了这个文件:

prod1,prod2,prod3
alpha,beta,epsilon
alpha,beta,theta
alpha,beta,epsilon
alpha,beta,theta

我将它加载到Weka并点击了标签" Associate",算法" Apriori"默认选择。

结果我得到以下内容:

 1. prod2=beta 4 ==> prod1=alpha 4    conf:(1)
 2. prod1=alpha 4 ==> prod2=beta 4    conf:(1)
 3. prod3=epsilon 2 ==> prod1=alpha 2    conf:(1)
 4. prod3=theta 2 ==> prod1=alpha 2    conf:(1)
 5. prod3=epsilon 2 ==> prod2=beta 2    conf:(1)
 6. prod3=theta 2 ==> prod2=beta 2    conf:(1)
 7. prod2=beta prod3=epsilon 2 ==> prod1=alpha 2    conf:(1)
 8. prod1=alpha prod3=epsilon 2 ==> prod2=beta 2    conf:(1)
 9. prod3=epsilon 2 ==> prod1=alpha prod2=beta 2    conf:(1)
10. prod2=beta prod3=theta 2 ==> prod1=alpha 2    conf:(1)

但我也想要维基百科的例子中的频率(见上文)。

1 个答案:

答案 0 :(得分:1)

Weka给你的信心(conf:(1))正是"频率"你要的那个。

正如您所看到的,您的规则" 50%具有alpha,beta的集合也有epsilon"不在Weka的输出中。这是因为Weka列出了按递减顺序排序的规则。因此,要列出您的50%规则,您需要增加Weka的输出数量。

这可以通过增加" numRules" (默认值为10,请参见下面的屏幕截图)。对于您的特定示例,您还需要命令" minMetric"从0.9到0.5(或更低)。

Weka GUI Apriori parameters