对于一个学术项目,我必须分析一家保险公司的客户数据库。 这家保险公司想要确定一些事情,首先要对离开公司的客户进行分类,以便为他们提供一些优惠等。 然后,他们还希望了解哪些客户在保险索赔方面进行追加销售或交叉销售,以及寻找有风险的客户。
所以我专注于客户取消,因为它似乎是最重要的一个。
保险公司提供的属性是:
捆绑/非捆绑,政策状态,政策类型,政策组合,签发日期,生效日期,到期日,保单期限,贷款期限,取消日期,取消原因,总保费,拆分保费,合作伙伴ID,代理商ID,国家机构,区域ID,代理商潜力,性别承包商,出生年份承包商,工作承包商,性别保险,工作保险,出生年度保险,年度索赔,索赔状态,索赔规定,索赔付款
数据库由~200k记录组成,某些属性有许多缺失值。 我开始使用Rapid Miner来挖掘数据集。 我稍微清理了数据集,删除了不连贯或错误的值。
然后我尝试应用决策树,添加一个名为isCanceled的Policy Status(可以发布,续订或取消)派生的新属性,并将其用作决策树的标签。 我尝试更改决策树的每个参数,但是我得到的树只有1个叶子节点而且没有分割,或者某个树完全不相关,因为它的叶节点数量几乎相同2个类的实例。 这真的令人沮丧。
我想知道通常的流程分析程序是什么,可能使用Rapid Miner ..可以帮助我吗?
答案 0 :(得分:1)
根据我的经验,大多数数据挖掘或机器学习活动都将大部分时间用于清理,整理,格式化和理解数据。
假设已经完成,那么只要某些或所有属性与要预测的标签之间存在关系,就可以执行某种流失分析。
当然,有很多方法可以确定这种关系,但快速的方法是尝试其中一个Weight By
运算符。这将为每个属性输出一组权重,其中接近1的权重可能更能预测标签。
如果确定存在值属性,则可以使用决策树或其他运算符构建可用于预测的模型。您拥有的属性是名义和数字类型的混合,因此决策树将起作用,无论如何,此运算符更容易可视化。棘手的部分是获得正确的参数,并且这样做的方法是在参数变化时观察模型在看不见的数据上的性能。 Loop Parameters
运算符可以为此提供帮助。