我正在制定关联规则的第一步。
我找到了这个主题(Supermarket dataset for Apriori algorithm)。 然后我尝试使用answer2中建议的数据,但是当我看到数据集的解释时,似乎与实际数据没有任何关联。
关于数据集,作者解释说:“数据集中的每条记录都包含有关购买日期的信息(变量'日期'),收据编号(变量'收据nr')......”
在我看到的数据的第一条记录中:
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
在第二个:
30 31 32
我认为这是因为数据集已经“匿名化”,但我应该如何将变量“转换”为数据呢?
答案 0 :(得分:1)
从快速看,我认为这只是原始数据的一个子集,采用典型的“篮子”格式。 每一行都是一个交易,每个数字都是一个项目。
不,如果没有其他数据源,您将无法分辨这些项目。
因此,测试您的算法在实际数据上返回某些是非常有用的,但您不会真正知道它找到了什么。
您可能希望查看IIRC与Weka一起提供的supermarket.arff
文件。它至少标有一些产品类别(例如“冷冻食品”)。