Weka Apriori没有找到大型项目集和规则

时间:2016-01-16 14:28:13

标签: associations weka data-mining apriori

我正在尝试使用给定的数据库表与WEKA(我使用3.7)进行apriori关联挖掘 enter image description here

所以,我导出了两列(orderLineNumber和productCode)并将其加载到weka中,就我而言,我没有获得任何成功尝试,总是以" 没有大项目集结束和规则找到了!"

同样,我尝试首先使用ARFF Converter将csv转换为ARFF文件并仍然获得相同的消息;

enter image description here

我也尝试在WEKA中使用数据库加载器,数据加载得很好但仍然给出相同的结果;

我在预处理中应用的过滤器只是numericToNominal过滤器;

我在这里做错了什么,我怀疑地认为这是我的ARFF格式,谢谢

更新 经过进一步的试验,我发现我输出了错误的列,我缺少1个过滤器进程,这是#34;非规范化的#34;,我通过数据包管理器安装了插件,并在将其转换为标称优先后对我的数据进行了非规范化处理;

然后,我将结果与"超市"进行了比较。样本的结果;唯一的区别是我的输出来自' f'而不是' (如下图所示),置信度似乎总是100%;

enter image description here enter image description here

1 个答案:

答案 0 :(得分:3)

首先,OrderLine是错误的列。

显然,印刷法案上的立场并不是很重要。

其次,文件格式不合适。

您希望@data部分的每个订单一行,每个可能的项目一列。为了节省内存,使用稀疏格式可能会有所帮助(不要忘记适当地设置标志)

像ELKI这样的其他工具可以处理这样的输入格式,这可能更容易使用(它也比Weka快得多):

apple banana
milk diapers beer

但最后我查了一下,ELKI只会"而且#34;找到频繁项集(较难的部分)不计算关联规则。然后,我根据需要使用一个小的python脚本来生成实际的关联规则。