Question

我正在尝试使用给定的数据库表与WEKA（我使用3.7）进行apriori关联挖掘

所以，我导出了两列（orderLineNumber和productCode）并将其加载到weka中，就我而言，我没有获得任何成功尝试，总是以＆＃34; 没有大项目集结束和规则找到了！＆＃34;

同样，我尝试首先使用ARFF Converter将csv转换为ARFF文件并仍然获得相同的消息;

我也尝试在WEKA中使用数据库加载器，数据加载得很好但仍然给出相同的结果;

我在预处理中应用的过滤器只是numericToNominal过滤器;

我在这里做错了什么，我怀疑地认为这是我的ARFF格式，谢谢

更新经过进一步的试验，我发现我输出了错误的列，我缺少1个过滤器进程，这是＃34;非规范化的＃34;，我通过数据包管理器安装了插件，并在将其转换为标称优先后对我的数据进行了非规范化处理;

然后，我将结果与＆＃34;超市＆＃34;进行了比较。样本的结果;唯一的区别是我的输出来自＆＃39; f＆＃39;而不是＆＃39; （如下图所示），置信度似乎总是100％;

Answer 1

首先，OrderLine是错误的列。

显然，印刷法案上的立场并不是很重要。

其次，文件格式不合适。

您希望@data部分的每个订单一行，每个可能的项目一列。为了节省内存，使用稀疏格式可能会有所帮助（不要忘记适当地设置标志）

像ELKI这样的其他工具可以处理这样的输入格式，这可能更容易使用（它也比Weka快得多）：

apple banana
milk diapers beer

但最后我查了一下，ELKI只会＆＃34;而且＃34;找到频繁项集（较难的部分）不计算关联规则。然后，我根据需要使用一个小的python脚本来生成实际的关联规则。