请向我推荐有关itemset的适当最低支持和信心的任何材料!
::我使用apriori算法搜索频繁项集。我仍然不知道对itemset的适当支持和信心。我想知道决定支持有多大的考虑因素。
答案 0 :(得分:2)
答案是适当的值取决于数据。
对于某些数据集,最佳值可能为0.5。但对于其他一些数据集,它可能是0.05。这取决于数据。
但是如果设置minsup = 0和minconf = 0,某些算法会在终止之前耗尽内存,或者由于模式太多而可能用完磁盘空间。
根据我的经验,选择minsup和minconf的最佳方法是从较高的值开始,然后逐渐降低它们,直到找到足够的模式。
或者,如果您不想设置minsup,则可以使用top-k算法,而不是指定minsup,例如,您可以指定k个最常用的规则。例如,k = 1000规则。
如果您对top-k关联规则挖掘感兴趣,可以在此处查看我的Java代码:
http://www.philippe-fournier-viger.com/spmf/
该算法称为TopKRules,描述它的文章将于下个月发布。
除此之外,您需要知道除了支持和信心之外还有许多其他有趣的措施:解除,充满信心,......要了解更多信息,您可以阅读这篇文章:"选择关联规则的兴趣度量"和#34;关联规则的兴趣度量调查"基本上,在某些情况下,所有措施都存在一些问题......没有措施是完美的。
希望这有帮助!
答案 1 :(得分:0)
在任何关联规则挖掘算法(包括Apriori)中,由用户决定他们想要提供哪些支持和置信度值。根据您的数据集和目标,您可以决定minSup和minConf。 显然,如果将这些值设置得更低,那么您的算法将需要更长的时间来执行,您将获得大量结果。
答案 2 :(得分:0)
最小支持和最小置信度参数是用户偏好。如果您需要更大量的结果(具有较低的统计置信度),请适当选择参数。从理论上讲,你可以将它们设置为0.算法将运行,但这需要很长时间,结果不会特别有用,因为它几乎包含任何内容。
所以选择它们以便结果满足您的需求。在数学上,任何值都是“正确的”。