我正在建立HR人员流失数据模型。我的目标变量是Attrition(其中包含YES / NO字段)。我的要求是考虑Dev&保留样本占人口的70%。保持和开发中的某些记录可以重叠。我使用catools
库进行拆分,发现它没有按预期工作。请参阅以下输出。任何快速帮助真的很感激。
R代码:
CTDF = read.table("HR_Employee_Attrition_Data.csv", sep = ",", header = T)
nrow(CTDF)
table(CTDF $Attrition)
library(caTools)
set.seed(100)
split = sample.split(CTDF$Attrition,SplitRatio=0.70)
CTDF.dev=subset(CTDF, split=TRUE)
table(CTDF$Attrition)
输出:
> nrow(CTDF)
[1] 2940
> str(CTDF)
$ Attrition : Factor w/ 2 levels "No","Yes": 2 1 2 1 1 1 1 1
> table(CTDF$Attrition)
No Yes
2466 474
分手后:
> table(CTDF$Attrition)
No Yes
2466 474