任何优化Apriori算法的数据挖掘方法?

时间:2010-10-23 14:18:05

标签: apriori

我正在挖掘一些数据。 我想节省时间。 那么任何方法?

2 个答案:

答案 0 :(得分:3)

如果您正在挖掘数据并希望节省时间,则应考虑使用FPGrowth而不是尝试优化Apriori。

即使你优化Apriori,它也不会像FPGrowth的良好实现一样快。

Apriori很重要,因为它是频繁项集挖掘和关联挖掘的第一个算法。但是现在有一些更有效的算法。

答案 1 :(得分:1)

  1. 使用正确的编程语言(EX:使用VB可能是灾难性的)
  2. 制定您需要的信息并相应编码您的计划
  3. 根据需要减少数据库大小或准备数据库
  4. SUPER COMPUTER(是硬件很重要,开玩笑说你需要一个很好的计算机esp用于非常大的数据集)
  5. 通过以下方式改进Apriori算法本身:

    •基于哈希的项目集计数:相应的哈希桶数低于阈值的k项目集不能频繁。
    •交易减少:不包含任何频繁k项目的交易在后续扫描中无效 •分区:DB中可能经常出现的任何项目集必须在DB的至少一个分区中频繁出现 •抽样:挖掘给定数据的子集,降低支持阈值+确定完整性的方法 •动态项目集计数:仅在估计其所有子集频繁时才添加新的候选项目集。