如何在具有分类变量和连续变量的数据集中查找和计算相关性?

时间:2019-11-15 17:04:41

标签: python correlation

我正在研究保险领域的用例,以预测现有客户是否会购买第二份保险。我有不同类别的客户的一些个人详细信息,例如婚姻状况,吸烟者(是或否),年龄(年轻人,成人,老年人),性别(男/女),很少是连续变量,例如保费,投保额

我的目标是使用分类变量和连续变量的混合集并预测类别(1-将购买第二个策略,0-将不购买第二个策略)。那么如何在该数据集中查找/计算相关性,并仅选择要在Logistic回归公式中用于分类的重要相关性?

如果有人能够提供文章,链接到用Python完成的类似工作,将不胜感激。

1 个答案:

答案 0 :(得分:0)

对于这个问题,购买第二条保单更多是概率性事件,而不是确定性事件。例如,您的客户A购买另一种保险的可能性客户A不会​​购买的可能性

首先,您需要一个假设。购买第二个保单是您的因变量(顾名思义,它将依赖其他变量的值);这就是方程式的Y您认为哪些因素会导致客户获得另一项保单?

根据您在保险领域的经验,您可能会说X年龄以上的客户或Y年龄以上的客户来自Z性别等等。这些是您的独立变量-等式的X。

如果您真的想使用Python,请检查https://scikit-learn.org/stable/modules/linear_model.html#ordinary-least-squares,但如果是我,我将开始使用Excel,如果情况变得更加复杂,请切换到Python。

对于分类数据,您可以为其分配值...例如,性别1代表男性,0代表女性。检查此链接以获取更多信息https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features

相关问题