Question

我正在建立HR人员流失数据模型。我的目标变量是Attrition（其中包含YES / NO字段）。我的要求是考虑Dev＆amp;保留样本占人口的70％。保持和开发中的某些记录可以重叠。我使用catools库进行拆分，发现它没有按预期工作。请参阅以下输出。任何快速帮助真的很感激。

R代码：

 CTDF = read.table("HR_Employee_Attrition_Data.csv", sep = ",", header = T)
 nrow(CTDF)
 table(CTDF $Attrition)
 library(caTools)
 set.seed(100)
 split = sample.split(CTDF$Attrition,SplitRatio=0.70)
 CTDF.dev=subset(CTDF, split=TRUE) 
 table(CTDF$Attrition)

输出：

> nrow(CTDF)
 [1] 2940
> str(CTDF)
 $ Attrition               : Factor w/ 2 levels "No","Yes": 2 1 2 1 1 1 1 1 
> table(CTDF$Attrition) 
 No  Yes 
 2466  474

分手后：

> table(CTDF$Attrition)

  No  Yes 
 2466  474

请评论我的分裂Dev和Hold的方法是否正确？请注意，我不需要测试采样数据。
我应该如何让我的sample.split在这种情况下工作？

将给定数据拆分为开发并保留样本

0 个答案: