Question

再次问好stackoverflow-ers！希望你很好

我正在开发一个项目，实质上是在尝试创建一个决策树。该数据适用于银行的广告系列，该广告系列涉及广告系列激励客户开立定期存款的效果。

无论如何，我已经通过编码等方式在网上资源的帮助下工作，并在一方面碰壁。

其中一列是所有客户的定金存款数字，因为我绘制了可视化数据（请参阅附图） enter image description here

由于数据如此分散，我想要将其离散化。我使用了以下代码：

BankTraining$TDepositAMTD<-cut(BankTraining$TermDepositAMT, right=F,
                           breaks= c(0,5000,10000,15000,20000,max(BankTraining$TermDepositAMT)))

这里

Y轴是观察数量，X轴是定期存款的美元数量。

但是，在此步骤之后查看列我看到：

    table(BankTraining$TDepositAMTD)

   [0,5e+03)   [5e+03,1e+04) 
           5213            8631 
[1e+04,1.5e+04) [1.5e+04,2e+04) 
           8367            1698 
  [2e+04,3e+04) 
           3121

现在，显然这不好。创建决策树后，它会显示这些我无法解释的奇怪类别。

enter image description here

有人可以解释这个问题吗？非常感谢你的帮助。

Answer 1

因为看起来你对你正在制作的剪辑感到不满意，所以请注意：

library(Hmisc)
Groups <- cut2(data, g = 5) # g is the number of groups or levels I want

可以找到包裹Hmisc here。

至于您的奇怪类别，我们需要查看哪些包/算法以及您如何调用它，因为这些类别可能是您的分箱产品和默认行为的一些后果。很高兴能够在有更多信息时进行编辑。

R -crazy值中的数据离散化

1 个答案: