数据挖掘的最低支持和最低信心

时间:2014-08-15 06:35:44

标签: data-mining apriori

我想知道在挖掘关联规则中是否可以自动确定最低支持度和最小置信度?如果是这样,任何提示或指向资源的指针都会很棒。

1 个答案:

答案 0 :(得分:6)

是的,有一些方法可以自动确定minsup和minconf阈值。

但首先,让我告诉你一些关于如何选择minsup和minconf参数的信息。选择它们取决于您的数据。

对于 mininmum支持,我对某些数据使用80%。对于其他一些数据,我使用0.05%。这一切都取决于数据集。通常,我从一个较高的值开始,然后我减少值,直到找到一个可以生成足够的paterns的值。

min。信心,它更容易一些,因为它代表了您在规则中所需的信心。所以通常情况下,我会使用60%这样的东西,因为我对60%以下的规则不感兴趣。但它也取决于数据。

就性能而言,当minsup更高时,你会发现更少的模式,算法更快。对于minconf,当它设置得更高时,模式会更少,但可能不会更快,因为许多算法都不使用minconf来修剪搜索空间。很明显,设置这些参数还取决于您想要的规则数量。

如果您不想使用minsup参数,可以使用 top-k关联规则挖掘算法。在这种情况下,您将指定例如k = 1000,算法将以给定的最小置信度发现1000个最常用的规则。我为关联规则挖掘设计了一个名为 TopKRules 的算法。您可以从SPMF open-source data mining library下载源代码,它提供了许多关联规则和模式挖掘算法的实现。

另一种自动设置minsup阈值的解决方案是使用数学函数根据您拥有的数据来设置它。您可以看到我的blog post here作为如何操作的示例。

还有一些其他作品试图找到设置minsup和minconf的解决方案。您可以在Google学术搜索中找到它们。