假设我有一个数据帧(df)。对于此示例,我将仅抽取一个如下所示的示例:
X1 Binned_X1 Dependent WOE_X1
-236 [-316,67) 1 -0.154412769
-236 [-316,67) 0 -0.154412769
-236 [-316,67) 0 -0.154412769
-236 [-316,67) 0 -0.154412769
-236 [-316,67) 0 -0.154412769
-236 [-316,67) 0 -0.154412769
-236 [-316,67) 0 -0.154412769
320 [244,420) 0 -0.184265732
320 [244,420) 0 -0.184265732
320 [244,420) 0 -0.184265732
320 [244,420) 1 -0.184265732
320 [244,420) 0 -0.184265732
320 [244,420) 0 -0.184265732
320 [244,420) 0 -0.184265732
320 [244,420) 0 -0.184265732
320 [244,420) 1 -0.184265732
320 [244,420) 0 -0.184265732
320 [244,420) 0 -0.184265732
320 [244,420) 0 -0.184265732
320 [244,420) 0 -0.184265732
320 [244,420) 0 -0.184265732
320 [244,420) 0 -0.184265732
320 [244,420) 0 -0.184265732
320 [244,420) 1 -0.184265732
320 [244,420) 0 -0.184265732
320 [244,420) 1 -0.184265732
320 [244,420) 0 -0.184265732
244 [244,420) 0 -0.184265732
244 [244,420) 1 -0.184265732
244 [244,420) 1 -0.184265732
244 [244,420) 0 -0.184265732
244 [244,420) 1 -0.184265732
244 [244,420) 0 -0.184265732
244 [244,420) 0 -0.184265732
244 [244,420) 0 -0.184265732
244 [244,420) 0 -0.184265732
244 [244,420) 1 -0.184265732
244 [244,420) 1 -0.184265732
244 [244,420) 1 -0.184265732
244 [244,420) 0 -0.184265732
244 [244,420) 1 -0.184265732
244 [244,420) 0 -0.184265732
244 [244,420) 0 -0.184265732
244 [244,420) 0 -0.184265732
244 [244,420) 0 -0.184265732
244 [244,420) 0 -0.184265732
244 [244,420) 0 -0.184265732
244 [244,420) 0 -0.184265732
244 [244,420) 0 -0.184265732
244 [244,420) 1 -0.184265732
244 [244,420) 1 -0.184265732
244 [244,420) 0 -0.184265732
对于Bin的计算,我使用了cutr::smart_cut(如果您想知道的话),对于WOE的计算,我使用了InformationValue::WOE。现在,我想做的是在WOE的值之间的差小于特定数量时合并垃圾箱,对于这个示例,我们假设0.2
因此,在这种情况下,(-0.1544-(-0.1842)) = 0.0298
,所以我希望列Binned_X1
对两个值进行分组,以便像[-316,67),[244,67)
这样。合并一个垃圾箱后,再次计算WOE。
如果您想知道如何计算WOE,公式为:ln((Relative frecuency of Goods)/(Relative frecuency of Bads))
。 Dependent
列中的每1个为“商品”,每0个为“不良”。
仅供参考,在df中,我们会有一个这样的表:
[-316,67) [244,420)
Local Goods 18 22
Local Bads 54 68
Total Goods 212 212
Total bads 545 545
WOE -0.154412769 -0.184265732
在输出中,我们将得到类似该表的内容
[-316,67),[244,420)
Local Goods 40
Local Bads 122
Total Goods 212
Total bads 545
WOE -0.170942071
有人可以帮我吗?