按R中的证据权重分组容器

时间:2018-10-12 01:45:34

标签: r

假设我有一个数据帧(df)。对于此示例,我将仅抽取一个如下所示的示例:

X1  Binned_X1   Dependent   WOE_X1
-236    [-316,67)   1   -0.154412769
-236    [-316,67)   0   -0.154412769
-236    [-316,67)   0   -0.154412769
-236    [-316,67)   0   -0.154412769
-236    [-316,67)   0   -0.154412769
-236    [-316,67)   0   -0.154412769
-236    [-316,67)   0   -0.154412769
320     [244,420)   0   -0.184265732
320     [244,420)   0   -0.184265732
320     [244,420)   0   -0.184265732
320     [244,420)   1   -0.184265732
320     [244,420)   0   -0.184265732
320     [244,420)   0   -0.184265732
320     [244,420)   0   -0.184265732
320     [244,420)   0   -0.184265732
320     [244,420)   1   -0.184265732
320     [244,420)   0   -0.184265732
320     [244,420)   0   -0.184265732
320     [244,420)   0   -0.184265732
320     [244,420)   0   -0.184265732
320     [244,420)   0   -0.184265732
320     [244,420)   0   -0.184265732
320     [244,420)   0   -0.184265732
320     [244,420)   1   -0.184265732
320     [244,420)   0   -0.184265732
320     [244,420)   1   -0.184265732
320     [244,420)   0   -0.184265732
244     [244,420)   0   -0.184265732
244     [244,420)   1   -0.184265732
244     [244,420)   1   -0.184265732
244     [244,420)   0   -0.184265732
244     [244,420)   1   -0.184265732
244     [244,420)   0   -0.184265732
244     [244,420)   0   -0.184265732
244     [244,420)   0   -0.184265732
244     [244,420)   0   -0.184265732
244     [244,420)   1   -0.184265732
244     [244,420)   1   -0.184265732
244     [244,420)   1   -0.184265732
244     [244,420)   0   -0.184265732
244     [244,420)   1   -0.184265732
244     [244,420)   0   -0.184265732
244     [244,420)   0   -0.184265732
244     [244,420)   0   -0.184265732
244     [244,420)   0   -0.184265732
244     [244,420)   0   -0.184265732
244     [244,420)   0   -0.184265732
244     [244,420)   0   -0.184265732
244     [244,420)   0   -0.184265732
244     [244,420)   1   -0.184265732
244     [244,420)   1   -0.184265732
244     [244,420)   0   -0.184265732

对于Bin的计算,我使用了cutr::smart_cut(如果您想知道的话),对于WOE的计算,我使用了InformationValue::WOE。现在,我想做的是在WOE的值之间的差小于特定数量时合并垃圾箱,对于这个示例,我们假设0.2

因此,在这种情况下,(-0.1544-(-0.1842)) = 0.0298,所以我希望列Binned_X1对两个值进行分组,以便像[-316,67),[244,67)这样。合并一个垃圾箱后,再次计算WOE。

如果您想知道如何计算WOE,公式为:ln((Relative frecuency of Goods)/(Relative frecuency of Bads))Dependent列中的每1个为“商品”,每0个为“不良”。

仅供参考,在df中,我们会有一个这样的表:

           [-316,67)    [244,420)
Local Goods   18          22
Local Bads    54          68
Total Goods   212         212
Total bads    545         545
WOE      -0.154412769   -0.184265732

在输出中,我们将得到类似该表的内容

             [-316,67),[244,420)
Local Goods          40
Local Bads           122
Total Goods          212
Total bads           545
WOE             -0.170942071

有人可以帮我吗?

0 个答案:

没有答案