将给定数据拆分为开发并保留样本

时间:2017-02-14 01:05:07

标签: r

我正在建立HR人员流失数据模型。我的目标变量是Attrition(其中包含YES / NO字段)。我的要求是考虑Dev&保留样本占人口的70%。保持和开发中的某些记录可以重叠。我使用catools库进行拆分,发现它没有按预期工作。请参阅以下输出。任何快速帮助真的很感激。

R代码:

 CTDF = read.table("HR_Employee_Attrition_Data.csv", sep = ",", header = T)
 nrow(CTDF)
 table(CTDF $Attrition)
 library(caTools)
 set.seed(100)
 split = sample.split(CTDF$Attrition,SplitRatio=0.70)
 CTDF.dev=subset(CTDF, split=TRUE) 
 table(CTDF$Attrition)

输出:

> nrow(CTDF)
 [1] 2940
> str(CTDF)
 $ Attrition               : Factor w/ 2 levels "No","Yes": 2 1 2 1 1 1 1 1 
> table(CTDF$Attrition) 
 No  Yes 
 2466  474 

分手后:

> table(CTDF$Attrition)

  No  Yes 
 2466  474 
  1. 请评论我的分裂Dev和Hold的方法是否正确? 请注意,我不需要测试采样数据。
  2. 我应该如何让我的sample.split在这种情况下工作?

0 个答案:

没有答案