Apriori算法的超市数据集

时间:2012-03-17 23:40:12

标签: dataset integration-testing data-mining apriori

'我必须开发一个适用于“Future Stores”超市业务分析师的软件,该软件对超市销售交易的给定过渡数据执行关联规则挖掘,并通过准备Combo来准备折扣政策。 该软件利用数据挖掘算法即Apriori算法。关联规则将以用户友好的方式显示以生成折扣 基于积极关联规则的政策。'

从哪里可以获得超市数据集来检查我编码的Apriori算法?

2 个答案:

答案 0 :(得分:7)

要获得市场数据集,您可以访问:fimi.ua.ac.be/data/并下载零售数据集。

这是来自比利时商店的交易的匿名数据集。

它非常适合测试Apriori或其他频繁项集挖掘和关联规则挖掘算法。

答案 1 :(得分:0)

您应该为每个单元测试设计一个小的,特定的数据集,而不是寻找真实的数据集。数据集应提供验证系统单个特征的最小必要前提条件。这样可以更容易地检测错误,维护测试,并向其他开发人员演示系统的功能和使用模式。

来自不同域的示例将是用于创建和验证网站登录的用户子系统的测试。

  • addsNewUser - 空数据集
  • throwsExceptionForDuplicateUsername - 单用户数据集
  • correctPasswordPasses - 相同的数据集
  • throwsExceptionForIncorrectUsername - 相同的数据集
  • throwsExceptionForIncorrectPassword - 相同的数据集
  • throwsExceptionWhenNewUsernameExists - 双用户数据集

更新:如果您需要一个非常大的数据集来执行集成或性能测试,您可能会编写一个程序来生成随机的购买集合。我怀疑任何现有的超市都愿意(或能够)分享他们的真实数据集。

话虽如此,多年前(HIPAA之前)作为医疗保险提供商的承包商,我获得了一个样本数据集。它包含真实的患者信息,包括SSN和机密病史。 :(