决策树学习者算法生成的规则是否相关?

时间:2017-05-25 05:17:58

标签: algorithm machine-learning decision-tree

我一直致力于决策树学习算法来检测欺诈性银行交易。 到目前为止,我已经根据我的数据集为决策树生成了规则集。 我还为每个规则生成了显着性值:来自我的数据集的事务数满足特定规则,规则捕获的欺诈百分比等。 现在,根据规则的重要性,我需要选择十大规则。

我的问题是,当我选择前十条规则时,某些规则是否有可能相关?

例如: 我正在处理的数据集有10000个事务。 决策树算法给出了20条规则。 在20条规则中,我需要选择前十条规则。 现在,假设rule1标识了50个事务,而rule2标识了60个事务。 rule1确定的某些规则也被rule2识别的可能性是多少?

注意:前十大交易是捕捉大部分欺诈行为的交易。

1 个答案:

答案 0 :(得分:0)

你无法通过这种方式获得概率。相关性是数据集的特征属性,您可以根据每种情况进行计算。你可以从给定的信息中代数推导出 not 。你的例子的答案可能在整个理论范围内变化:0到50。

在此应用程序中,您必须单独计算哪些事务满足哪些规则(10000 * 20列表),并根据这些实际统计信息计算相关性。

确定交互和个人有效性的一个领域是“交叉验证”。例如,您将从集合中删除一个规则,在事务上重新运行模型,并查看验证度量标准的更改(准确性,召回等)。这通常是主成分分析的第一步。

我注意到你没有定义“十大规则”。这些是单独采用最多交易的十条规则吗?个人缺席错过最多交易的人?也许您需要一套十条规则,这些规则总体上具有最高的准确度?这是三个截然不同的问题,取决于您询问的相关性。