Apriori算法 - 选择交易清单

时间:2011-03-08 15:11:42

标签: apriori

我正在尝试使用apriori算法推断客户帐户上发生的错误。所以我有一个像这样的错误表:

error_id    error_code    cust_id  
1           M015          100  
2           M020          101  
3           M016          100  
4           M019          100  
5           M015          102

...

我想确定M015会出现什么错误 (例如M015 - >; ??)

问题是错误表包含数十万个订单项,并且有数百种可能的错误代码。那么我是否以非常低的信心运行我的算法以尽可能多地获取可能的规则?或者我是否将错误数据库缩小到仅包含“交易”,其中包含我感兴趣的错误?

(例如,在这个示例中,如果我正在寻找规则M015,我应该将事务表限制为仅限于cust_id 100和102的行项吗?)

1 个答案:

答案 0 :(得分:0)

对于最小置信度和支持阈值,最好从高值开始,然后在没有得到足够结果的情况下降低值。

但我认为你应该保持高信心,否则结果将没有用。例如,您可能希望信心至少达到50%。

是的,对于优化,您可以修改算法以仅搜索包含您感兴趣的项目的规则。这将允许算法不生成大量规则。

但不要忘记,关联不是因果关系。如果你想根据时间做一些预测,你可以使用“顺序规则挖掘算法”或顺序模式挖掘算法“,而不是关联规则挖掘算法。