R:统一宽度的倍数的分箱问题

时间:2019-02-25 08:06:43

标签: r cut binning

我一直在寻找R切割或装箱包,但我找不到我真正想要的。

我有一个包含1000个变量的数据集,对于某些列,它们的值可能在0.01到0.2之间,而对于另一些列,它们的值可能在0到2000之间。另一方面,某些值可能包含负数。

我想为每个变量绘制直方图,但是要使用更一致的分箱标签,即我希望分箱宽度为1,2.5或5的倍数(对于十进制数可能为0.01、0.02或0.05 ),我很灵活地将bin号更改为20至40个bin(可以更容易地将其固定),而不必关心每个bin中的数据量。

之所以这样做,是因为我可能会为相同的变量获取一些新数据,并且希望对它们的分布进行一致的装箱,并且可能在同一装箱中对模型结果进行建模。而且变量太多了,我无法手动进行。

任何关于如何为此编写函数以在获取新数据之前返回与旧数据和新数据一致的垃圾箱的想法。

0 个答案:

没有答案