如何从一个大型数据库中分类一个小而奇特的子集?

时间:2013-06-02 20:26:28

标签: data-mining classification rules decision-tree rapidminer

我必须在包含有关保险单的信息的数据库上执行数据挖掘任务。每个元组都指示有关单个策略的数据,以及有关发布它的机构,它所指的客户以及其他字段的信息。它就像是hypotetical表格中的政策,客户和代理商之间的产品。字段如下:

政策类型,身份证号码,政策状态,产品描述,产品组合,签发日期,生效日期,到期日,保单期限,贷款期限,取消日期,取消原因,总保费,拆分保费,ID合作伙伴,ID机构,国家机构,ID区,代理商潜力,性承包商,出生年度承包商,工作承包商,性保险,工作保险,出生年度保险,产品领域,法律形式,身份证索赔,年度索赔,身份索赔,提供索赔,付款根据权利要求

这是一项学术任务,我们的教授希望我们确定流失率,交叉销售和向上销售。我不太喜欢这个领域,因此我在维基百科上寻找这些条款。我从流失率开始,在我看来,在这种情况下,我必须描述其政策状态设置为“已取消”且取消原因为“客户取消”的客户的属性。

使用Rapid Miner,我尝试应用决策树和规则挖掘,但感兴趣的子集非常小,输出模型虽然总体上具有良好的准确性,但在预测取消的策略方面具有非常非常差的准确性。发生这种情况是因为取消策略的子集非常小。我还尝试将MetaCost运算符应用于给定的成本矩阵,其中对其他策略进行错误分类的成本相对于其他策略而言非常高(比例高出一百万倍),但这并没有改变结果。

我现在最好的选择是使用顺序覆盖算法进行规则挖掘,但快速挖掘器不实现它,我必须手动编码。

您是否对如何为取消的政策的一小部分建立良好模型有任何建议,以便我们可以使用它来识别将来可能取消其政策的客户?

N.B。:因为它来自真实的来源,虽然是匿名的,但我无法透露数据库或其中包含的任何数据。

2 个答案:

答案 0 :(得分:1)

你尝试过Navie Bayes吗?它适用于少量数据。您也可以像AODE一样尝试它的变体。 Rapid Miner不提供AODE。您应该安装Weka扩展以访问Rapid Miner中的AODE。

答案 1 :(得分:0)

您需要平衡数据集,以便类(已取消/未取消)的大小相同。这意味着(暂时)丢弃大量数据。

您可以使用Sample运算符和Balance Labels复选框来执行此操作。