Apriori算法的数据集

时间:2011-09-01 09:50:14

标签: database associations data-mining rule apriori

我将开发一个用于Market Basket Analysis的应用程序(使用apriori算法),我找到了一个拥有超过90,000条交易记录的数据集。

问题是此数据集中没有项目名称,只包含项目的条形码。

我刚刚启动项目并对apriori算法进行研究,任何人都可以帮助我解决这个问题,使用以下数据集实现此算法的最佳方法是什么?

3 个答案:

答案 0 :(得分:1)

该算法的定义与用于对象的标识符无关。此外,您没有发布“以下数据集”:P如果您的问题是算法希望您的项目编号为0,1,2,...那么只需扫描您的数据集并将每个条形码映射到号。

如果您有兴趣,有一些关于如何非常有效地表示频繁项目集的论文:http://www.google.de/url?sa=t&source=web&cd=1&ved=0CB8QFjAA&url=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10.1.1.163.4827%26rep%3Drep1%26type%3Dpdf&ei=QdVuTsn7Cc6WmQWD7sWVCg&usg=AFQjCNGDG8etNN2B4GQ52pSNIfQaTH7ajQ&sig2=7r3buh8AcfJmn2CwjjobAg

答案 1 :(得分:1)

这些数据集被认为是关键信息,而连锁店不会提供这些信息,但您可以使用SQL Server自己生成一些样本数据集。

答案 2 :(得分:1)

该算法不需要项目的名称。