我正在尝试使用给定的数据库表与WEKA(我使用3.7)进行apriori关联挖掘
所以,我导出了两列(orderLineNumber和productCode)并将其加载到weka中,就我而言,我没有获得任何成功尝试,总是以" 没有大项目集结束和规则找到了!"
同样,我尝试首先使用ARFF Converter将csv转换为ARFF文件并仍然获得相同的消息;
我也尝试在WEKA中使用数据库加载器,数据加载得很好但仍然给出相同的结果;
我在预处理中应用的过滤器只是numericToNominal过滤器;
我在这里做错了什么,我怀疑地认为这是我的ARFF格式,谢谢
更新 经过进一步的试验,我发现我输出了错误的列,我缺少1个过滤器进程,这是#34;非规范化的#34;,我通过数据包管理器安装了插件,并在将其转换为标称优先后对我的数据进行了非规范化处理;
然后,我将结果与"超市"进行了比较。样本的结果;唯一的区别是我的输出来自' f'而不是' (如下图所示),置信度似乎总是100%;答案 0 :(得分:3)
首先,OrderLine是错误的列。
显然,印刷法案上的立场并不是很重要。
其次,文件格式不合适。
您希望@data部分的每个订单一行,每个可能的项目一列。为了节省内存,使用稀疏格式可能会有所帮助(不要忘记适当地设置标志)
像ELKI这样的其他工具可以处理这样的输入格式,这可能更容易使用(它也比Weka快得多):
apple banana
milk diapers beer
但最后我查了一下,ELKI只会"而且#34;找到频繁项集(较难的部分)不计算关联规则。然后,我根据需要使用一个小的python脚本来生成实际的关联规则。