我遇到了欺诈检测挑战。数据集极不平衡,例如100000个负示例,而只有1000个正示例。 可能的预测变量的数量为25。有连续的和离散的,类别从2 2 10变化。 问题的主要重点是对最重要的变量进行排名,这将有助于识别欺诈,并且不会直接构建最佳模型,而在此情况下,当然不能根据准确性来判断最佳模型。 我使用的是R,由于它更喜欢具有更多类别的连续变量和离散变量,因此我可能会跳过随机森林。 我正在考虑使用ctree(R)–条件推理树。有许多论文建议使用选择频率和置换重要性,将单个树构建在原始样本大小为n的引导样本上,而无需替换。
我的问题:
谢谢!