我是新来的,所以请让我知道我是否可以提高自己的水平。
我想预测员工的缺勤情况,因此我必须考虑这个数字变量。数据偏斜正确,所以我想在每个类别上均等地传输条目。我更喜欢有一个新的变量“ Group”,它将所有观察结果均分为1、2或3。
问题是我在使该因子等于n时遇到问题。我从以下主题尝试了许多可能性:splitting a continuous variable into equal sized groups,例如cut,cut2和Hmisc。所有选项似乎都很简单,但是如果我应用它们,则分类不是相等的。
我希望有人可以帮助我,我很好奇为什么上述方法对我不起作用。我想要一个基本库的答案。以下是我的数据快照:
structure(list(ID = c(11, 36, 3, 7, 11, 3), Reason_absence = c(26,
0, 23, 7, 23, 23), Age = c(33, 50, 38, 39, 33, 38), BMI2 = c(30,
31, 31, 24, 30, 31), Absenteeism_time = c(4, 0, 2, 4, 2, 2)), class =
c("tbl_df", "tbl", "data.frame"), row.names = c(NA, -6L))
整个数据集包含700个条目和21列。
谢谢!